論文の概要: Goal Representations for Instruction Following: A Semi-Supervised
Language Interface to Control
- arxiv url: http://arxiv.org/abs/2307.00117v2
- Date: Fri, 18 Aug 2023 00:47:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 23:03:13.264549
- Title: Goal Representations for Instruction Following: A Semi-Supervised
Language Interface to Control
- Title(参考訳): 指示追従の目標表現:制御のための半監督言語インタフェース
- Authors: Vivek Myers, Andre He, Kuan Fang, Homer Walke, Philippe
Hansen-Estruch, Ching-An Cheng, Mihai Jalobeanu, Andrey Kolobov, Anca Dragan,
Sergey Levine
- Abstract要約: 本稿では,少数の言語データのみを用いて,共同画像と目標条件のポリシーを言語と併用する手法を提案する。
本手法は,言語を目標画像と一致させないラベル付きデータから埋め込みを学習することにより,実世界のロバストな性能を実現する。
ラベル付きデータの外部の言語命令に一般化して,様々な操作タスクをさまざまな場面で追従する命令を示す。
- 参考スコア(独自算出の注目度): 58.06223121654735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our goal is for robots to follow natural language instructions like "put the
towel next to the microwave." But getting large amounts of labeled data, i.e.
data that contains demonstrations of tasks labeled with the language
instruction, is prohibitive. In contrast, obtaining policies that respond to
image goals is much easier, because any autonomous trial or demonstration can
be labeled in hindsight with its final state as the goal. In this work, we
contribute a method that taps into joint image- and goal- conditioned policies
with language using only a small amount of language data. Prior work has made
progress on this using vision-language models or by jointly training
language-goal-conditioned policies, but so far neither method has scaled
effectively to real-world robot tasks without significant human annotation. Our
method achieves robust performance in the real world by learning an embedding
from the labeled data that aligns language not to the goal image, but rather to
the desired change between the start and goal images that the instruction
corresponds to. We then train a policy on this embedding: the policy benefits
from all the unlabeled data, but the aligned embedding provides an interface
for language to steer the policy. We show instruction following across a
variety of manipulation tasks in different scenes, with generalization to
language instructions outside of the labeled data. Videos and code for our
approach can be found on our website: https://rail-berkeley.github.io/grif/ .
- Abstract(参考訳): 私たちの目標は、ロボットが「電子レンジの横にタオルを置く」といった自然言語命令に従うことです。
しかし、大量のラベル付きデータ、すなわち言語命令でラベル付けされたタスクのデモを含むデータを得ることは禁じられている。
対照的に、イメージ目標に反応するポリシーの取得は、最終状態を目標として、自律的なトライアルやデモを後見でラベル付けできるため、はるかに容易である。
そこで本研究では,少量の言語データを用いて,画像と目標条件の共通ポリシーを言語で活用する手法を提案する。
先行研究は視覚言語モデルや共同で言語goal条件付きポリシーを訓練することでこれを進めてきたが、今のところどちらの手法も人間の注意を必要とせずに現実世界のロボットタスクに効果的にスケールしていない。
本手法は,目標画像に適合するラベル付きデータから,指示が対応する開始画像と目標画像の間の所望の変化を学習することで,実世界での堅牢な性能を実現する。
ポリシーはラベルのないすべてのデータから恩恵を受けますが、アライメントはポリシーを管理するための言語のためのインターフェースを提供します。
ラベル付きデータの外部の言語命令に一般化して,様々な操作タスクをさまざまな場面で追従する命令を示す。
私たちのアプローチのビデオとコードは、私たちのWebサイトにある。
関連論文リスト
- RT-H: Action Hierarchies Using Language [36.873648277512864]
ロボット模倣学習における最近の研究は、与えられた視覚的観察と言語で指定されたハイレベルなタスクを予測する言語条件付きポリシーを用いている。
本稿では,RT-Hが言語動作を用いた行動階層を構築し,これとハイレベルなタスクを条件に,視覚的コンテキストを用いた行動予測を行うことを示す。
これらの方針は、言語介入に応答するだけでなく、遠隔操作による介入から学ぶ方法や優れた手法からも学べることを示す。
論文 参考訳(メタデータ) (2024-03-04T08:16:11Z) - Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。
私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文 参考訳(メタデータ) (2023-07-31T17:57:49Z) - Robotic Skill Acquisition via Instruction Augmentation with
Vision-Language Models [70.82705830137708]
言語条件制御のためのデータ駆動型インストラクション拡張(DIAL)について紹介する。
我々は,CLIPのセマンティック理解を利用したセミ言語ラベルを用いて,未知の実演データの大規模なデータセットに知識を伝達する。
DIALは、模倣学習ポリシーによって、新しい能力を獲得し、元のデータセットにない60の新しい命令を一般化することができる。
論文 参考訳(メタデータ) (2022-11-21T18:56:00Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z) - Modular Framework for Visuomotor Language Grounding [57.93906820466519]
自然言語の指導は、接地された言語とロボット工学の研究にとって貴重なテストベッドとして機能する。
本稿では,言語,行動,視覚的タスクを個別に学習可能なモジュールに構造化することを提案する。
論文 参考訳(メタデータ) (2021-09-05T20:11:53Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z) - Language Conditioned Imitation Learning over Unstructured Data [9.69886122332044]
本稿では,自由形式の自然言語条件付けを模倣学習に組み込む手法を提案する。
我々のアプローチは、単一のニューラルネットワークとしてピクセル、自然言語理解、マルチタスク連続制御のエンドツーエンドから知覚を学習する。
言語アノテーションのコストを1%以下に抑えつつ,言語条件付き性能を劇的に向上させることを示す。
論文 参考訳(メタデータ) (2020-05-15T17:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。