論文の概要: Spatial-Language Attention Policies for Efficient Robot Learning
- arxiv url: http://arxiv.org/abs/2304.11235v1
- Date: Fri, 21 Apr 2023 20:02:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 19:44:32.021881
- Title: Spatial-Language Attention Policies for Efficient Robot Learning
- Title(参考訳): 効率的なロボット学習のための空間言語注意政策
- Authors: Priyam Parashar, Jay Vakil, Sam Powers, Chris Paxton
- Abstract要約: 本研究では,トランスフォーマーを用いたロボット意思決定のための空間表現の構築と訓練方法について検討する。
本稿では,空間言語注意ポリシー (SLAP) を解法として提案する。
提案手法は,8つのタスクを1つのモデルで実世界の80%の成功率を示し,その47.5%の成功率を示す。
- 参考スコア(独自算出の注目度): 6.778811918203336
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate how to build and train spatial representations for robot
decision making with Transformers. In particular, for robots to operate in a
range of environments, we must be able to quickly train or fine-tune robot
sensorimotor policies that are robust to clutter, data efficient, and
generalize well to different circumstances. As a solution, we propose Spatial
Language Attention Policies (SLAP). SLAP uses three-dimensional tokens as the
input representation to train a single multi-task, language-conditioned action
prediction policy. Our method shows 80% success rate in the real world across
eight tasks with a single model, and a 47.5% success rate when unseen clutter
and unseen object configurations are introduced, even with only a handful of
examples per task. This represents an improvement of 30% over prior work (20%
given unseen distractors and configurations).
- Abstract(参考訳): トランスフォーマーを用いたロボット意思決定のための空間表現の構築と訓練について検討する。
特に、ロボットが様々な環境で動作するためには、散らかりやすく、データ効率が良く、異なる状況にうまく一般化できる、ロボットのセンサーモデレータポリシーをすばやく訓練したり、微調整したりできなければなりません。
そこで本研究では,空間言語注意ポリシー(SLAP)を提案する。
SLAPは入力表現として3次元トークンを使用し、単一のマルチタスク、言語条件のアクション予測ポリシーをトレーニングする。
1つのモデルで8つのタスクにまたがる実世界では80%の成功率を示し、1つのタスクにほんのわずかな例であっても、見当たらないクレームや見当たらないオブジェクト構成を導入すると47.5%の成功率を示す。
これは、以前の作業よりも30%の改善である(見当たらない障害と構成で20%)。
関連論文リスト
- Helpful DoggyBot: Open-World Object Fetching using Legged Robots and Vision-Language Models [63.89598561397856]
室内環境における四足歩行操作のためのシステムを提案する。
オブジェクト操作にはフロントマウントのグリップを使用しており、アジャイルスキルにエゴセントリックな深さを使ってシミュレーションでトレーニングされた低レベルのコントローラである。
実世界のデータ収集やトレーニングを行なわずに、2つの目に見えない環境でシステムを評価する。
論文 参考訳(メタデータ) (2024-09-30T20:58:38Z) - Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks [50.27313829438866]
Plan-Seq-Learn (PSL) は、抽象言語と学習した低レベル制御の間のギャップを埋めるためにモーションプランニングを使用するモジュラーアプローチである。
PSLは85%以上の成功率、言語ベース、古典的、エンドツーエンドのアプローチを達成している。
論文 参考訳(メタデータ) (2024-05-02T17:59:31Z) - Yell At Your Robot: Improving On-the-Fly from Language Corrections [84.09578841663195]
高いレベルのポリシーは、人間のフィードバックによって言語修正の形で容易に管理できることを示す。
このフレームワークは、ロボットがリアルタイムの言語フィードバックに迅速に適応するだけでなく、このフィードバックを反復的なトレーニングスキームに組み込むことを可能にする。
論文 参考訳(メタデータ) (2024-03-19T17:08:24Z) - RT-H: Action Hierarchies Using Language [36.873648277512864]
ロボット模倣学習における最近の研究は、与えられた視覚的観察と言語で指定されたハイレベルなタスクを予測する言語条件付きポリシーを用いている。
本稿では,RT-Hが言語動作を用いた行動階層を構築し,これとハイレベルなタスクを条件に,視覚的コンテキストを用いた行動予測を行うことを示す。
これらの方針は、言語介入に応答するだけでなく、遠隔操作による介入から学ぶ方法や優れた手法からも学べることを示す。
論文 参考訳(メタデータ) (2024-03-04T08:16:11Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z) - PERFECT: Prompt-free and Efficient Few-shot Learning with Language
Models [67.3725459417758]
PERFECTは、手工芸に頼らずに数発のPLMを微調整するためのシンプルで効率的な方法である。
そこで本研究では,手作業によるタスクプロンプトを,サンプル効率の良い微調整が可能なタスク固有アダプタに置き換えることができることを示す。
幅広い数発のNLPタスクの実験では、PERFECTはシンプルで効率的でありながら、既存の最先端の数発の学習方法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2022-04-03T22:31:25Z) - Language Models as Zero-Shot Planners: Extracting Actionable Knowledge
for Embodied Agents [111.33545170562337]
自然言語で表現された高レベルなタスクを、選択された実行可能なステップのセットに基底付ける可能性について検討する。
事前学習したLMが十分に大きく、適切に誘導された場合、ハイレベルなタスクを効果的に低レベルな計画に分解できることがわかった。
本稿では,既存の実演の条件を規定し,計画が許容可能な行動に意味的に変換される手順を提案する。
論文 参考訳(メタデータ) (2022-01-18T18:59:45Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z) - Language Conditioned Imitation Learning over Unstructured Data [9.69886122332044]
本稿では,自由形式の自然言語条件付けを模倣学習に組み込む手法を提案する。
我々のアプローチは、単一のニューラルネットワークとしてピクセル、自然言語理解、マルチタスク連続制御のエンドツーエンドから知覚を学習する。
言語アノテーションのコストを1%以下に抑えつつ,言語条件付き性能を劇的に向上させることを示す。
論文 参考訳(メタデータ) (2020-05-15T17:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。