論文の概要: Conditionally Combining Robot Skills using Large Language Models
- arxiv url: http://arxiv.org/abs/2310.17019v1
- Date: Wed, 25 Oct 2023 21:46:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 23:16:06.667294
- Title: Conditionally Combining Robot Skills using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたロボットスキルの条件結合
- Authors: K.R. Zentner, Ryan Julian, Brian Ichter, Gaurav S. Sukhatme
- Abstract要約: シミュレーションロボット環境での大規模言語モデルの動作を可能にするMeta-Worldベンチマークの拡張を提案する。
Meta-Worldと同じタスクセットを使用することで、Language-Worldの結果とMeta-Worldの結果とを簡単に比較することができます。
第2に、我々はPlan Conditioned Behavioral Cloning (PCBC)と呼ばれる手法を導入し、エンド・ツー・エンドのデモを用いて高レベルのプランの動作を微調整する。
- 参考スコア(独自算出の注目度): 21.41468872596801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper combines two contributions. First, we introduce an extension of
the Meta-World benchmark, which we call "Language-World," which allows a large
language model to operate in a simulated robotic environment using
semi-structured natural language queries and scripted skills described using
natural language. By using the same set of tasks as Meta-World, Language-World
results can be easily compared to Meta-World results, allowing for a point of
comparison between recent methods using Large Language Models (LLMs) and those
using Deep Reinforcement Learning. Second, we introduce a method we call Plan
Conditioned Behavioral Cloning (PCBC), that allows finetuning the behavior of
high-level plans using end-to-end demonstrations. Using Language-World, we show
that PCBC is able to achieve strong performance in a variety of few-shot
regimes, often achieving task generalization with as little as a single
demonstration. We have made Language-World available as open-source software at
https://github.com/krzentner/language-world/.
- Abstract(参考訳): この論文は2つの貢献を組み合わせる。
まず,「Language-World」と呼ばれるメタワールドベンチマークを拡張し,半構造化自然言語クエリと自然言語を用いて記述したスクリプトスキルを用いて,大規模言語モデルでロボット環境での動作を可能にする。
メタワールドと同じタスクセットを使用することで、言語の世界の結果をメタワールドの結果と比較し易くし、大規模言語モデル(llm)を用いた最近の手法と深層強化学習を用いたものを比較することができる。
次に,エンド・ツー・エンドのデモンストレーションを用いて,高レベルプランの動作を微調整する手法であるpcbc(plan conditioned behavior clone)を提案する。
言語の世界を用いることで、pcbcは様々な少数のシステムにおいて強力な性能を達成でき、しばしば1つのデモンストレーションでタスクの一般化を達成することができる。
我々は、language-worldをオープンソースソフトウェアとしてhttps://github.com/krzentner/language-world/で利用可能にした。
関連論文リスト
- CMULAB: An Open-Source Framework for Training and Deployment of Natural Language Processing Models [59.91221728187576]
本稿では,NLPモデルのモデル展開と連続的なヒューマン・イン・ザ・ループの微調整を簡単にするオープンソースフレームワークであるCMU言語バックエンドを紹介する。
CMULABは、マルチ言語モデルのパワーを活用して、音声認識、OCR、翻訳、構文解析などの既存のツールを新しい言語に迅速に適応し、拡張することができる。
論文 参考訳(メタデータ) (2024-04-03T02:21:46Z) - Language Models are Universal Embedders [48.12992614723464]
事前学習されたトランスフォーマーデコーダは、限定的な英語データに基づいて微調整された場合、普遍的に埋め込み可能であることを示す。
我々のモデルは、最小限のトレーニングデータにより、異なる埋め込みタスクにおける競争性能を達成する。
これらの結果は、強力な統合インバータを構築するための有望な道の証となる。
論文 参考訳(メタデータ) (2023-10-12T11:25:46Z) - Coupling Large Language Models with Logic Programming for Robust and
General Reasoning from Text [5.532477732693001]
大規模言語モデルは, 意味論的に非常に効果的な数ショットとして機能することを示す。
自然言語文を論理形式に変換し、応答集合プログラムの入力として機能する。
本手法は,bAbI, StepGame, CLUTRR, gSCAN など,いくつかのベンチマークにおいて最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-15T03:29:59Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Pre-training Universal Language Representation [46.51685959045527]
この研究は普遍言語表現学習、すなわち、一様ベクトル空間に非常に多様な長さを持つ言語単位やテキストの異なるレベルの埋め込みを導入している。
我々は、よく設計された事前学習スキームが、効果的に普遍的な言語表現をもたらすことを実証的に検証する。
論文 参考訳(メタデータ) (2021-05-30T09:29:01Z) - Language Conditioned Imitation Learning over Unstructured Data [9.69886122332044]
本稿では,自由形式の自然言語条件付けを模倣学習に組み込む手法を提案する。
我々のアプローチは、単一のニューラルネットワークとしてピクセル、自然言語理解、マルチタスク連続制御のエンドツーエンドから知覚を学習する。
言語アノテーションのコストを1%以下に抑えつつ,言語条件付き性能を劇的に向上させることを示す。
論文 参考訳(メタデータ) (2020-05-15T17:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。