論文の概要: Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2410.08001v2
- Date: Fri, 11 Oct 2024 05:38:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 06:05:02.966095
- Title: Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのための相乗的・一般化・効率的なデュアルシステムを目指して
- Authors: Qingwen Bu, Hongyang Li, Li Chen, Jisong Cai, Jia Zeng, Heming Cui, Maoqing Yao, Yu Qiao,
- Abstract要約: RoboDualは、ジェネラリストとスペシャリストの双方の利点を補う相乗的双対システムである。
拡散変圧器をベースとした多段アクションロールアウトのためのスペシャリストが考案された。
CALVINが26.7%向上し、CALVINが12%向上した。
- 参考スコア(独自算出の注目度): 35.4089550201086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing demand for versatile robotic systems to operate in diverse and dynamic environments has emphasized the importance of a generalist policy, which leverages a large cross-embodiment data corpus to facilitate broad adaptability and high-level reasoning. However, the generalist would struggle with inefficient inference and cost-expensive training. The specialist policy, instead, is curated for specific domain data and excels at task-level precision with efficiency. Yet, it lacks the generalization capacity for a wide range of applications. Inspired by these observations, we introduce RoboDual, a synergistic dual-system that supplements the merits of both generalist and specialist policy. A diffusion transformer-based specialist is devised for multi-step action rollouts, exquisitely conditioned on the high-level task understanding and discretized action output of a vision-language-action (VLA) based generalist. Compared to OpenVLA, RoboDual achieves 26.7% improvement in real-world setting and 12% gain on CALVIN by introducing a specialist policy with merely 20M trainable parameters. It maintains strong performance with 5% of demonstration data only, and enables a 3.8 times higher control frequency in real-world deployment. Code would be made publicly available. Our project page is hosted at: https://opendrivelab.com/RoboDual/
- Abstract(参考訳): 多様な動的環境下での多目的ロボットシステムの運用に対する需要が増大するにつれ、幅広い適応性と高レベルの推論を容易にするために、大規模なクロス・エボディメント・データ・コーパスを活用するジェネリスト・ポリシーの重要性が強調されている。
しかし、ジェネラリストは非効率な推論と費用対効果の訓練に苦慮した。
代わりに、スペシャリストポリシーは特定のドメインデータに対してキュレーションされ、タスクレベルの精度を効率よく向上させる。
しかし、幅広いアプリケーションに対する一般化能力は欠如している。
これらの観測から着想を得たRoboDualは、一般論と専門政策の両方の利点を補う相乗的二重システムである。
視覚言語アクション(VLA)に基づくジェネラリストの高レベルなタスク理解と離散化されたアクション出力に基づいて、多段階のアクションロールアウトのために、拡散トランスフォーマーベースのスペシャリストを考案した。
OpenVLAと比較すると、RoboDualは実世界の設定が26.7%改善し、CALVINが12%向上した。
デモデータの5%のみを使用して、強力なパフォーマンスを維持し、実世界のデプロイにおける3.8倍の制御周波数を実現する。
コードは一般に公開されている。
私たちのプロジェクトページは、https://opendrivelab.com/RoboDual/でホストされています。
関連論文リスト
- Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance [66.51390591688802]
バリューガイド型ポリシーステアリング(V-GPS)は、ポリシーの重みを微調整したり、アクセスしたりすることなく、幅広い種類のジェネラリストポリシーと互換性がある。
同じ値関数は、異なるアーキテクチャで5つの最先端ポリシーの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:46:26Z) - Robotic Control via Embodied Chain-of-Thought Reasoning [86.6680905262442]
学習したロボット制御ポリシーの鍵となる制限は、トレーニングデータの外部で一般化できないことである。
視覚言語行動モデル(VLA)に関する最近の研究は、大規模なインターネット事前学習型視覚言語モデルを使用することで、その堅牢性と一般化能力を大幅に向上させることができることを示した。
ロボットの動作を予測する前に、VLAに対して、計画、サブタスク、動作、視覚的接地機能について複数の推論を行うために、VLAに対してEmbodied Chain-of-Thought Reasoning (ECoT)を導入する。
論文 参考訳(メタデータ) (2024-07-11T17:31:01Z) - Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning [61.294110816231886]
我々はスパース・リユース・フレキシブル・ポリシー、スパース・ディフュージョン・ポリシー(SDP)を導入する。
SDPは、エキスパートとスキルを選択的に活性化し、モデル全体をトレーニングすることなく、効率的でタスク固有の学習を可能にする。
デモとコードはhttps://forrest-110.io/sparse_diffusion_policy/にある。
論文 参考訳(メタデータ) (2024-07-01T17:59:56Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z) - RoboAgent: Generalization and Efficiency in Robot Manipulation via
Semantic Augmentations and Action Chunking [54.776890150458385]
マルチタスク操作能力を持つユニバーサルエージェントを訓練するための効率的なシステムを開発した。
私たちは、12のスキルを持つ1つのエージェントを訓練することができ、38のタスクでその一般化を実証することができます。
平均すると、RoboAgentは目に見えない状況において、従来の方法よりも40%以上性能が高い。
論文 参考訳(メタデータ) (2023-09-05T03:14:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。