論文の概要: What Matters in Language Conditioned Robotic Imitation Learning
- arxiv url: http://arxiv.org/abs/2204.06252v1
- Date: Wed, 13 Apr 2022 08:45:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 12:25:58.824740
- Title: What Matters in Language Conditioned Robotic Imitation Learning
- Title(参考訳): 言語条件付きロボット模倣学習で何が重要か
- Authors: Oier Mees, Lukas Hermann, Wolfram Burgard
- Abstract要約: オフラインのフリーフォーム模倣データセットから言語条件付きポリシーを学習する際の最も重要な課題について検討する。
本稿では,CALVINベンチマークを用いて,言語条件の難易度を向上する手法を提案する。
- 参考スコア(独自算出の注目度): 26.92329260907805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A long-standing goal in robotics is to build robots that can perform a wide
range of daily tasks from perceptions obtained with their onboard sensors and
specified only via natural language. While recently substantial advances have
been achieved in language-driven robotics by leveraging end-to-end learning
from pixels, there is no clear and well-understood process for making various
design choices due to the underlying variation in setups. In this paper, we
conduct an extensive study of the most critical challenges in learning language
conditioned policies from offline free-form imitation datasets. We further
identify architectural and algorithmic techniques that improve performance,
such as a hierarchical decomposition of the robot control learning, a
multimodal transformer encoder, discrete latent plans and a self-supervised
contrastive loss that aligns video and language representations. By combining
the results of our investigation with our improved model components, we are
able to present a novel approach that significantly outperforms the state of
the art on the challenging language conditioned long-horizon robot manipulation
CALVIN benchmark. We have open-sourced our implementation to facilitate future
research in learning to perform many complex manipulation skills in a row
specified with natural language. Codebase and trained models available at
http://hulc.cs.uni-freiburg.de
- Abstract(参考訳): ロボット工学の長年の目標は、センサーが内蔵し、自然言語でしか特定されていない知覚から、幅広い日常的なタスクをこなせるロボットを作ることだ。
最近の言語駆動ロボティクスの進歩は、ピクセルからエンドツーエンドの学習を活用することで達成されているが、セットアップの基盤となる変動により、さまざまなデザイン選択を行うための明確かつよく理解されたプロセスは存在しない。
本稿では、オフラインのフリーフォーム模倣データセットから言語条件付きポリシーを学習する際の最も重要な課題について広範な研究を行う。
さらに,ロボット制御学習の階層的分解,マルチモーダルトランスフォーマーエンコーダ,離散潜在計画,映像および言語表現を整列する自己監督的コントラスト的損失など,性能向上のためのアーキテクチャ的・アルゴリズム的手法を同定する。
本研究の結果を改良されたモデルコンポーネントと組み合わせることで,言語条件の長いロボット操作CALVINベンチマークにおいて,技術の現状を大幅に上回る新しい手法を提案することができる。
我々は,自然言語で指定された行で複雑な操作スキルを多数遂行する学習の今後の研究を促進するために,実装をオープンソース化した。
Codebaseとトレーニング済みモデルをhttp://hulc.cs.uni-freiburg.deで公開
関連論文リスト
- $π_0$: A Vision-Language-Action Flow Model for General Robot Control [77.32743739202543]
本稿では,インターネット規模のセマンティック知識を継承するために,事前学習された視覚言語モデル(VLM)上に構築された新しいフローマッチングアーキテクチャを提案する。
我々は,事前訓練後のタスクをゼロショットで実行し,人からの言語指導に追従し,微調整で新たなスキルを習得する能力の観点から,我々のモデルを評価した。
論文 参考訳(メタデータ) (2024-10-31T17:22:30Z) - Yell At Your Robot: Improving On-the-Fly from Language Corrections [84.09578841663195]
高いレベルのポリシーは、人間のフィードバックによって言語修正の形で容易に管理できることを示す。
このフレームワークは、ロボットがリアルタイムの言語フィードバックに迅速に適応するだけでなく、このフィードバックを反復的なトレーニングスキームに組み込むことを可能にする。
論文 参考訳(メタデータ) (2024-03-19T17:08:24Z) - Vision-Language Foundation Models as Effective Robot Imitators [48.73027330407576]
我々は、オープンソースのVLMであるOpenFlamingo上に構築されたRoboFlamingoというビジョン言語操作フレームワークを考案した。
テストベンチマークでは,最先端のパフォーマンスをはるかに上回って,ロボット制御にVLMを適用する上で,RoboFlamingoが効果的かつ競争力のある代替手段であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:34:33Z) - Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。
人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。
我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文 参考訳(メタデータ) (2023-02-24T17:29:31Z) - Grounding Language with Visual Affordances over Unstructured Data [26.92329260907805]
本研究では,非構造化,オフライン,リセットのないデータから,言語条件のロボットスキルを効率的に学習するための新しい手法を提案する。
我々は、言語による全データの1%しか必要としない自己教師型ビジュオ言語割当モデルを利用する。
提案手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。
論文 参考訳(メタデータ) (2022-10-04T21:16:48Z) - Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。
特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。
RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-11T16:28:25Z) - Reshaping Robot Trajectories Using Natural Language Commands: A Study of
Multi-Modal Data Alignment Using Transformers [33.7939079214046]
我々は、人間とロボットのコラボレーションのための柔軟な言語ベースのインタフェースを提供する。
我々は、ユーザコマンドをエンコードする大規模言語モデルの分野における最近の進歩を生かしている。
言語コマンドによって修正されたロボット軌跡を含むデータセット上で、模倣学習を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-25T01:36:56Z) - CALVIN: A Benchmark for Language-conditioned Policy Learning for
Long-horizon Robot Manipulation Tasks [30.936692970187416]
汎用ロボットは、人間の言語を認識や行動に関連付けることを学ばなければならない。
CALVIN(CALVIN)は、長期の言語条件のタスクを学習するためのオープンソースのシミュレーションベンチマークである。
論文 参考訳(メタデータ) (2021-12-06T18:37:33Z) - Learning Language-Conditioned Robot Behavior from Offline Data and
Crowd-Sourced Annotation [80.29069988090912]
本研究では,ロボットインタラクションの大規模なオフラインデータセットから視覚に基づく操作タスクを学習する問題について検討する。
クラウドソースの自然言語ラベルを用いたオフラインロボットデータセットの活用を提案する。
提案手法は目標画像仕様と言語条件付き模倣技術の両方を25%以上上回っていることがわかった。
論文 参考訳(メタデータ) (2021-09-02T17:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。