論文の概要: Spatial-Language Attention Policies for Efficient Robot Learning
- arxiv url: http://arxiv.org/abs/2304.11235v3
- Date: Tue, 7 Nov 2023 17:06:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 22:43:01.231997
- Title: Spatial-Language Attention Policies for Efficient Robot Learning
- Title(参考訳): 効率的なロボット学習のための空間言語注意政策
- Authors: Priyam Parashar, Vidhi Jain, Xiaohan Zhang, Jay Vakil, Sam Powers,
Yonatan Bisk, Chris Paxton
- Abstract要約: 本稿では,空間言語アテンションポリシー(SLAP)を解法として提案する。
SLAPは入力表現として3次元トークンを使用し、単一のマルチタスク、言語条件のアクション予測ポリシーをトレーニングする。
一つのモデルで8つのタスクにまたがる実世界の80%の成功率を示し、未確認な乱雑なオブジェクト構成を導入した場合、47.5%の成功率を示す。
- 参考スコア(独自算出の注目度): 32.215861214516735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite great strides in language-guided manipulation, existing work has been
constrained to table-top settings. Table-tops allow for perfect and consistent
camera angles, properties are that do not hold in mobile manipulation. Task
plans that involve moving around the environment must be robust to egocentric
views and changes in the plane and angle of grasp. A further challenge is
ensuring this is all true while still being able to learn skills efficiently
from limited data. We propose Spatial-Language Attention Policies (SLAP) as a
solution. SLAP uses three-dimensional tokens as the input representation to
train a single multi-task, language-conditioned action prediction policy. Our
method shows an 80% success rate in the real world across eight tasks with a
single model, and a 47.5% success rate when unseen clutter and unseen object
configurations are introduced, even with only a handful of examples per task.
This represents an improvement of 30% over prior work (20% given unseen
distractors and configurations). We see a 4x improvement over baseline in
mobile manipulation setting. In addition, we show how SLAPs robustness allows
us to execute Task Plans from open-vocabulary instructions using a large
language model for multi-step mobile manipulation. For videos, see the website:
https://robotslap.github.io
- Abstract(参考訳): 言語操作の進歩にもかかわらず、既存の作業はテーブルトップ設定に制限されている。
テーブルトップは、完璧で一貫性のあるカメラアングルを可能にする。
環境を動き回るタスクプランは、エゴセントリックな視点や平面の変化や把握角度に頑健でなければならない。
さらに課題は、限られたデータから効率的にスキルを習得しながら、これがすべて正しいことを保証することだ。
本稿では,空間言語アテンションポリシー(SLAP)を解法として提案する。
SLAPは入力表現として3次元トークンを使用し、単一のマルチタスク、言語条件のアクション予測ポリシーをトレーニングする。
1つのモデルで8つのタスクにまたがる実世界では80%の成功率を示し、1つのタスクにほんの一握りの例であっても、見当たらないクレームや見当たらないオブジェクト構成を導入すると47.5%の成功率を示す。
これは、以前の作業よりも30%の改善である(見当たらない障害と構成で20%)。
モバイル操作設定ではベースラインよりも4倍改善しています。
さらに,マルチステップ移動操作のための大規模言語モデルを用いて,オープンボキャブラリ命令からタスクプランを実行するためのslapsのロバスト性を示す。
ビデオはwebサイト(https://robotslap.github.io)を参照。
関連論文リスト
- Helpful DoggyBot: Open-World Object Fetching using Legged Robots and Vision-Language Models [63.89598561397856]
室内環境における四足歩行操作のためのシステムを提案する。
オブジェクト操作にはフロントマウントのグリップを使用しており、アジャイルスキルにエゴセントリックな深さを使ってシミュレーションでトレーニングされた低レベルのコントローラである。
実世界のデータ収集やトレーニングを行なわずに、2つの目に見えない環境でシステムを評価する。
論文 参考訳(メタデータ) (2024-09-30T20:58:38Z) - Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - Yell At Your Robot: Improving On-the-Fly from Language Corrections [84.09578841663195]
高いレベルのポリシーは、人間のフィードバックによって言語修正の形で容易に管理できることを示す。
このフレームワークは、ロボットがリアルタイムの言語フィードバックに迅速に適応するだけでなく、このフィードバックを反復的なトレーニングスキームに組み込むことを可能にする。
論文 参考訳(メタデータ) (2024-03-19T17:08:24Z) - RT-H: Action Hierarchies Using Language [36.873648277512864]
ロボット模倣学習における最近の研究は、与えられた視覚的観察と言語で指定されたハイレベルなタスクを予測する言語条件付きポリシーを用いている。
本稿では,RT-Hが言語動作を用いた行動階層を構築し,これとハイレベルなタスクを条件に,視覚的コンテキストを用いた行動予測を行うことを示す。
これらの方針は、言語介入に応答するだけでなく、遠隔操作による介入から学ぶ方法や優れた手法からも学べることを示す。
論文 参考訳(メタデータ) (2024-03-04T08:16:11Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z) - PERFECT: Prompt-free and Efficient Few-shot Learning with Language
Models [67.3725459417758]
PERFECTは、手工芸に頼らずに数発のPLMを微調整するためのシンプルで効率的な方法である。
そこで本研究では,手作業によるタスクプロンプトを,サンプル効率の良い微調整が可能なタスク固有アダプタに置き換えることができることを示す。
幅広い数発のNLPタスクの実験では、PERFECTはシンプルで効率的でありながら、既存の最先端の数発の学習方法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-04-03T22:31:25Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Language Conditioned Imitation Learning over Unstructured Data [9.69886122332044]
本稿では,自由形式の自然言語条件付けを模倣学習に組み込む手法を提案する。
我々のアプローチは、単一のニューラルネットワークとしてピクセル、自然言語理解、マルチタスク連続制御のエンドツーエンドから知覚を学習する。
言語アノテーションのコストを1%以下に抑えつつ,言語条件付き性能を劇的に向上させることを示す。
論文 参考訳(メタデータ) (2020-05-15T17:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。