論文の概要: Contrastive Imitation Learning for Language-guided Multi-Task Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2406.09738v1
- Date: Fri, 14 Jun 2024 05:53:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 15:03:43.242275
- Title: Contrastive Imitation Learning for Language-guided Multi-Task Robotic Manipulation
- Title(参考訳): 言語誘導型マルチタスクロボットマニピュレーションのためのコントラスト模倣学習
- Authors: Teli Ma, Jiaming Zhou, Zifan Wang, Ronghe Qiu, Junwei Liang,
- Abstract要約: 我々はマルチタスクロボット操作のためのエンドツーエンドの模倣学習エージェントであるSigma-Agentを紹介する。
Sigma-Agentは、視覚言語と現在の未来表現を強化するために、対照的なImitation Learning (Contrastive IL)モジュールを組み込んでいる。
Sigma-Agentは、さまざまな設定下で最先端のメソッドよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 14.354318744503088
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Developing robots capable of executing various manipulation tasks, guided by natural language instructions and visual observations of intricate real-world environments, remains a significant challenge in robotics. Such robot agents need to understand linguistic commands and distinguish between the requirements of different tasks. In this work, we present Sigma-Agent, an end-to-end imitation learning agent for multi-task robotic manipulation. Sigma-Agent incorporates contrastive Imitation Learning (contrastive IL) modules to strengthen vision-language and current-future representations. An effective and efficient multi-view querying Transformer (MVQ-Former) for aggregating representative semantic information is introduced. Sigma-Agent shows substantial improvement over state-of-the-art methods under diverse settings in 18 RLBench tasks, surpassing RVT by an average of 5.2% and 5.9% in 10 and 100 demonstration training, respectively. Sigma-Agent also achieves 62% success rate with a single policy in 5 real-world manipulation tasks. The code will be released upon acceptance.
- Abstract(参考訳): 自然言語の指示や複雑な現実世界の環境の視覚的な観察によって導かれる様々な操作タスクを実行するロボットの開発は、ロボティクスにおいて重要な課題である。
このようなロボットエージェントは言語コマンドを理解し、異なるタスクの要求を区別する必要がある。
本稿では,マルチタスクロボット操作のためのエンドツーエンドの模倣学習エージェントであるSigma-Agentを紹介する。
Sigma-Agentは、視覚言語と現在の未来表現を強化するために、対照的なImitation Learning (Contrastive IL)モジュールを組み込んでいる。
代表的セマンティック情報を集約するための効果的で効率的なマルチビュークエリ変換器(MVQ-Former)を提案する。
Sigma-Agentは18のRLBenchタスクにおける様々な設定下での最先端の手法を大幅に改善し、RVTを平均で5.2%、デモで5.9%上回った。
また、Sigma-Agentは5つの現実世界操作タスクで1つのポリシーで62%の成功率を達成した。
コードは受理時にリリースされます。
関連論文リスト
- LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - Bridging Language, Vision and Action: Multimodal VAEs in Robotic Manipulation Tasks [0.0]
本研究では,ロボット操作分野における教師なし視覚-言語-アクションマッピングに着目した。
本研究では,シミュレータにおけるモデルの性能を最大55%向上させるモデル不変学習法を提案する。
我々の研究は、ロボット運動軌跡の教師なし学習に現在のマルチモーダルVAEを使用することの潜在的な利点と限界にも光を当てている。
論文 参考訳(メタデータ) (2024-04-02T13:25:16Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining and Multi-task Fine-tuning [49.92517970237088]
我々はマルチモーダルなプロンプトを理解するためにロボットを訓練する問題に取り組む。
このようなタスクは、視覚と言語信号の相互接続と相補性を理解するロボットの能力にとって大きな課題となる。
マルチモーダルプロンプトを用いてロボット操作を行うためのポリシーを学習する効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - RoboAgent: Generalization and Efficiency in Robot Manipulation via
Semantic Augmentations and Action Chunking [54.776890150458385]
マルチタスク操作能力を持つユニバーサルエージェントを訓練するための効率的なシステムを開発した。
私たちは、12のスキルを持つ1つのエージェントを訓練することができ、38のタスクでその一般化を実証することができます。
平均すると、RoboAgentは目に見えない状況において、従来の方法よりも40%以上性能が高い。
論文 参考訳(メタデータ) (2023-09-05T03:14:39Z) - VIMA: General Robot Manipulation with Multimodal Prompts [82.01214865117637]
ロボット操作タスクの幅広い範囲をマルチモーダルプロンプトで表現できることを示す。
我々は,数千の手続き的に生成されたテーブルトップタスクからなる新しいシミュレーションベンチマークを開発した。
我々は、これらのプロンプトを処理し、自動回帰的に運動動作を出力するトランスフォーマーベースのロボットエージェントVIMAを設計する。
論文 参考訳(メタデータ) (2022-10-06T17:50:11Z) - BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning [108.41464483878683]
本稿では,視覚に基づくロボット操作システムにおいて,新しいタスクを一般化することの課題について検討する。
実演と介入の両方から学ぶことができるインタラクティブで柔軟な模倣学習システムを開発した。
実際のロボットにおけるデータ収集を100以上のタスクにスケールすると、このシステムは平均的な成功率44%で24の目に見えない操作タスクを実行できる。
論文 参考訳(メタデータ) (2022-02-04T07:30:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。