論文の概要: Yell At Your Robot: Improving On-the-Fly from Language Corrections
- arxiv url: http://arxiv.org/abs/2403.12910v1
- Date: Tue, 19 Mar 2024 17:08:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 13:14:11.385365
- Title: Yell At Your Robot: Improving On-the-Fly from Language Corrections
- Title(参考訳): ロボットに注意:言語補正によるオンザフライの改善
- Authors: Lucy Xiaoyang Shi, Zheyuan Hu, Tony Z. Zhao, Archit Sharma, Karl Pertsch, Jianlan Luo, Sergey Levine, Chelsea Finn,
- Abstract要約: 高いレベルのポリシーは、人間のフィードバックによって言語修正の形で容易に管理できることを示す。
このフレームワークは、ロボットがリアルタイムの言語フィードバックに迅速に適応するだけでなく、このフィードバックを反復的なトレーニングスキームに組み込むことを可能にする。
- 参考スコア(独自算出の注目度): 84.09578841663195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hierarchical policies that combine language and low-level control have been shown to perform impressively long-horizon robotic tasks, by leveraging either zero-shot high-level planners like pretrained language and vision-language models (LLMs/VLMs) or models trained on annotated robotic demonstrations. However, for complex and dexterous skills, attaining high success rates on long-horizon tasks still represents a major challenge -- the longer the task is, the more likely it is that some stage will fail. Can humans help the robot to continuously improve its long-horizon task performance through intuitive and natural feedback? In this paper, we make the following observation: high-level policies that index into sufficiently rich and expressive low-level language-conditioned skills can be readily supervised with human feedback in the form of language corrections. We show that even fine-grained corrections, such as small movements ("move a bit to the left"), can be effectively incorporated into high-level policies, and that such corrections can be readily obtained from humans observing the robot and making occasional suggestions. This framework enables robots not only to rapidly adapt to real-time language feedback, but also incorporate this feedback into an iterative training scheme that improves the high-level policy's ability to correct errors in both low-level execution and high-level decision-making purely from verbal feedback. Our evaluation on real hardware shows that this leads to significant performance improvement in long-horizon, dexterous manipulation tasks without the need for any additional teleoperation. Videos and code are available at https://yay-robot.github.io/.
- Abstract(参考訳): 言語と低レベル制御を組み合わせた階層的なポリシーは、事前訓練された言語や視覚言語モデル(LLMs/VLMs)のようなゼロショットの高レベルプランナーや、注釈付きロボットデモで訓練されたモデルを活用することで、驚くほど長い水平ロボットタスクを実行することが示されている。
しかし、複雑で器用なスキルでは、長期的なタスクで高い成功率を達成することは依然として大きな課題であり、タスクが長ければ長いほど、あるステージが失敗する可能性が高い。
人間は、直感的で自然なフィードバックによって、ロボットが長時間のタスクパフォーマンスを継続的に改善できるだろうか?
本稿では, 十分にリッチで表現力に富んだ低レベル言語条件のスキルにインデクシングする高レベル政策を, 言語修正という形で, 人間のフィードバックで容易に管理することができる。
左へ少し移動した)小さな動きのような細かな補正であっても、高レベルなポリシーに効果的に組み込むことができ、ロボットを観察し、時々提案する人間から容易にそのような修正が得られることを示す。
このフレームワークは、ロボットがリアルタイムの言語フィードバックに迅速に適応するだけでなく、このフィードバックを反復的なトレーニングスキームに組み込むことで、低レベルの実行と高レベルの意思決定の両方において、言語フィードバックから純粋にエラーを補正する高レベルのポリシーの能力を改善することができる。
実ハードウェアに対する評価では,遠隔操作を必要とせず,長時間の操作作業において大幅な性能向上が期待できる。
ビデオとコードはhttps://yay-robot.github.io/.com/で公開されている。
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - RACER: Rich Language-Guided Failure Recovery Policies for Imitation Learning [19.023560632891467]
本稿では,障害復旧トラジェクトリによる専門家によるデモンストレーションを強化する,スケーラブルなデータ生成パイプラインを提案する。
次に、Rich languAge-guided failure reCovERy(RACER)を紹介します。
実験の結果,RACERはRLbench上での最先端のロボットビュートランスよりも優れていた。
論文 参考訳(メタデータ) (2024-09-23T02:50:33Z) - Grounding Language Models in Autonomous Loco-manipulation Tasks [3.8363685417355557]
異なるシナリオにおけるタスクに基づいて行動を学び、選択し、計画する新しいフレームワークを提案する。
我々は,大規模言語モデル(LLM)の計画と推論機能を活用し,階層的なタスクグラフを構築する。
CENTAUROロボットを用いたシミュレーションおよび実世界の実験により、言語モデルに基づくプランナーが、新しいロコ操作タスクに効率的に適応できることが示されている。
論文 参考訳(メタデータ) (2024-09-02T15:27:48Z) - Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。
人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。
我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文 参考訳(メタデータ) (2023-02-24T17:29:31Z) - What Matters in Language Conditioned Robotic Imitation Learning [26.92329260907805]
オフラインのフリーフォーム模倣データセットから言語条件付きポリシーを学習する際の最も重要な課題について検討する。
本稿では,CALVINベンチマークを用いて,言語条件の難易度を向上する手法を提案する。
論文 参考訳(メタデータ) (2022-04-13T08:45:32Z) - Do As I Can, Not As I Say: Grounding Language in Robotic Affordances [119.29555551279155]
大規模な言語モデルは、世界に関する豊富な意味知識を符号化することができる。
このような知識は、自然言語で表現された高レベルで時間的に拡張された命令を動作させようとするロボットにとって極めて有用である。
低レベルのスキルを大規模言語モデルと組み合わせることで,言語モデルが複雑かつ時間的に拡張された命令を実行する手順について高いレベルの知識を提供することを示す。
論文 参考訳(メタデータ) (2022-04-04T17:57:11Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。