論文の概要: RT-H: Action Hierarchies Using Language
- arxiv url: http://arxiv.org/abs/2403.01823v1
- Date: Mon, 4 Mar 2024 08:16:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:39:41.003676
- Title: RT-H: Action Hierarchies Using Language
- Title(参考訳): RT-H: 言語を用いたアクション階層
- Authors: Suneel Belkhale, Tianli Ding, Ted Xiao, Pierre Sermanet, Quon Vuong,
Jonathan Tompson, Yevgen Chebotar, Debidatta Dwibedi, Dorsa Sadigh
- Abstract要約: ロボット模倣学習における最近の研究は、与えられた視覚的観察と言語で指定されたハイレベルなタスクを予測する言語条件付きポリシーを用いている。
本稿では,RT-Hが言語動作を用いた行動階層を構築し,これとハイレベルなタスクを条件に,視覚的コンテキストを用いた行動予測を行うことを示す。
これらの方針は、言語介入に応答するだけでなく、遠隔操作による介入から学ぶ方法や優れた手法からも学べることを示す。
- 参考スコア(独自算出の注目度): 38.260314371093195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language provides a way to break down complex concepts into digestible
pieces. Recent works in robot imitation learning use language-conditioned
policies that predict actions given visual observations and the high-level task
specified in language. These methods leverage the structure of natural language
to share data between semantically similar tasks (e.g., "pick coke can" and
"pick an apple") in multi-task datasets. However, as tasks become more
semantically diverse (e.g., "pick coke can" and "pour cup"), sharing data
between tasks becomes harder, so learning to map high-level tasks to actions
requires much more demonstration data. To bridge tasks and actions, our insight
is to teach the robot the language of actions, describing low-level motions
with more fine-grained phrases like "move arm forward". Predicting these
language motions as an intermediate step between tasks and actions forces the
policy to learn the shared structure of low-level motions across seemingly
disparate tasks. Furthermore, a policy that is conditioned on language motions
can easily be corrected during execution through human-specified language
motions. This enables a new paradigm for flexible policies that can learn from
human intervention in language. Our method RT-H builds an action hierarchy
using language motions: it first learns to predict language motions, and
conditioned on this and the high-level task, it predicts actions, using visual
context at all stages. We show that RT-H leverages this language-action
hierarchy to learn policies that are more robust and flexible by effectively
tapping into multi-task datasets. We show that these policies not only allow
for responding to language interventions, but can also learn from such
interventions and outperform methods that learn from teleoperated
interventions. Our website and videos are found at
https://rt-hierarchy.github.io.
- Abstract(参考訳): 言語は複雑な概念を消化可能な部分に分割する方法を提供する。
ロボット模倣学習における最近の研究は、与えられた視覚的観察と言語で指定されたハイレベルなタスクを予測する言語条件付きポリシーを用いている。
これらの手法は自然言語の構造を利用して、マルチタスクデータセットで意味論的に類似したタスク(例えば"pick coke can"や"pick an apple")間でデータを共有する。
しかし、タスクがより意味的に多様化するにつれて(例えば「コーラ缶」や「パック」など)、タスク間でのデータ共有が難しくなり、ハイレベルなタスクをアクションにマップする学習には、より多くのデモンストレーションデータが必要である。
タスクとアクションを橋渡しするために、私たちの洞察はロボットにアクションの言語を教え、"move arm forward"のようなより細かいフレーズで低レベルの動きを記述することです。
これらの言語の動きをタスクとアクションの間の中間的なステップとして予測することで、一見異なるタスク間で低レベルの動作の共有構造を学ぶことができる。
さらに、言語動作に規定されたポリシーは、人間の特定言語動作によって実行中に容易に修正できる。
これにより、人間の言語介入から学ぶことのできるフレキシブルなポリシーの新しいパラダイムが可能になる。
我々の手法RT-Hは、まず言語の動きを予測することを学習し、それと高レベルなタスクを条件に、あらゆる段階で視覚的コンテキストを用いて行動を予測する。
rt-hはこの言語-アクション階層を利用して、マルチタスクデータセットを効果的に利用することで、より堅牢で柔軟なポリシーを学習している。
これらの方針は、言語介入に応答するだけでなく、遠隔操作による介入から学ぶ方法や優れた手法からも学習できることを示す。
私たちのウェブサイトとビデオはhttps://rt-hierarchy.github.ioで閲覧できます。
関連論文リスト
- Goal Representations for Instruction Following: A Semi-Supervised
Language Interface to Control [58.06223121654735]
本稿では,少数の言語データのみを用いて,共同画像と目標条件のポリシーを言語と併用する手法を提案する。
本手法は,言語を目標画像と一致させないラベル付きデータから埋め込みを学習することにより,実世界のロバストな性能を実現する。
ラベル付きデータの外部の言語命令に一般化して,様々な操作タスクをさまざまな場面で追従する命令を示す。
論文 参考訳(メタデータ) (2023-06-30T20:09:39Z) - ARNOLD: A Benchmark for Language-Grounded Task Learning With Continuous
States in Realistic 3D Scenes [72.83187997344406]
ARNOLDは、現実的な3Dシーンにおける連続状態による言語によるタスク学習を評価するベンチマークである。
ARNOLDは、オブジェクト状態の理解と継続的な目標のための学習ポリシーを含む8つの言語条件のタスクで構成されている。
論文 参考訳(メタデータ) (2023-04-09T21:42:57Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Ask Your Humans: Using Human Instructions to Improve Generalization in
Reinforcement Learning [32.82030512053361]
本研究では、自然言語の指示や行動軌跡の形で、ステップバイステップの人間の実演を行うことを提案する。
人間のデモは、最も複雑なタスクを解決するのに役立ちます。
また、自然言語を組み込むことで、ゼロショット設定で未確認のタスクを一般化できることがわかった。
論文 参考訳(メタデータ) (2020-11-01T14:39:46Z) - Language Conditioned Imitation Learning over Unstructured Data [9.69886122332044]
本稿では,自由形式の自然言語条件付けを模倣学習に組み込む手法を提案する。
我々のアプローチは、単一のニューラルネットワークとしてピクセル、自然言語理解、マルチタスク連続制御のエンドツーエンドから知覚を学習する。
言語アノテーションのコストを1%以下に抑えつつ,言語条件付き性能を劇的に向上させることを示す。
論文 参考訳(メタデータ) (2020-05-15T17:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。