論文の概要: RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization
- arxiv url: http://arxiv.org/abs/2602.03310v1
- Date: Tue, 03 Feb 2026 09:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.364427
- Title: RDT2: Exploring the Scaling Limit of UMI Data Towards Zero-Shot Cross-Embodiment Generalization
- Title(参考訳): RDT2: ゼロショットクロスボデーメント一般化に向けたUMIデータのスケーリング限界を探る
- Authors: Songming Liu, Bangguo Li, Kai Ma, Lingxuan Wu, Hengkai Tan, Xiao Ouyang, Hang Su, Jun Zhu,
- Abstract要約: RDT2は、7BパラメータVLM上に構築されたロボット基盤モデルであり、オープン語彙タスクのための新しい実施形態のゼロショット展開を可能にする。
私たちは、さまざまな家族で1万時間以上のデモを行い、拡張されたエンボディメントに依存しないユニバーサルマニピュレーションインタフェース(UMI)を使って、オープンソースのロボットデータセットの1つを収集しました。
提案手法では,Residual Vector Quantization (RVQ), flow-matching, およびリアルタイム推論のための蒸留により, 個別の言語知識を連続的な制御と整合させる新しい3段階学習法を用いる。
- 参考スコア(独自算出の注目度): 31.40401674436269
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models hold promise for generalist robotics but currently struggle with data scarcity, architectural inefficiencies, and the inability to generalize across different hardware platforms. We introduce RDT2, a robotic foundation model built upon a 7B parameter VLM designed to enable zero-shot deployment on novel embodiments for open-vocabulary tasks. To achieve this, we collected one of the largest open-source robotic datasets--over 10,000 hours of demonstrations in diverse families--using an enhanced, embodiment-agnostic Universal Manipulation Interface (UMI). Our approach employs a novel three-stage training recipe that aligns discrete linguistic knowledge with continuous control via Residual Vector Quantization (RVQ), flow-matching, and distillation for real-time inference. Consequently, RDT2 becomes one of the first models that simultaneously zero-shot generalizes to unseen objects, scenes, instructions, and even robotic platforms. Besides, it outperforms state-of-the-art baselines in dexterous, long-horizon, and dynamic downstream tasks like playing table tennis. See https://rdt-robotics.github.io/rdt2/ for more information.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは汎用ロボティクスを約束するが、現時点ではデータ不足、アーキテクチャの非効率、さまざまなハードウェアプラットフォームにまたがる一般化のできないことに苦戦している。
RDT2は、7BパラメータVLMに基づいて構築されたロボット基礎モデルであり、オープン語彙タスクのための新しい実施形態のゼロショット展開を可能にするように設計されている。
これを実現するために、私たちは、拡張されたエンボディメントに依存しないユニバーサルマニピュレーションインターフェース(UMI)を使用して、さまざまな家族で1万時間以上のデモを行った、オープンソースのロボットデータセットのうちの1つを収集しました。
提案手法では,Residual Vector Quantization (RVQ), flow-matching, およびリアルタイム推論のための蒸留により, 個別の言語知識を連続的な制御と整合させる新しい3段階学習法を用いる。
その結果、RTT2はオブジェクト、シーン、指示、さらにはロボットプラットフォームに同時にゼロショットを一般化する最初のモデルの1つとなった。
さらに、卓球をしたり、長い水平、ダイナミックな下流のタスクで最先端のベースラインを上回ります。
詳細はhttps://rdt-robotics.github.io/rdt2/を参照。
関連論文リスト
- HiMoE-VLA: Hierarchical Mixture-of-Experts for Generalist Vision-Language-Action Policies [83.41714103649751]
具体的インテリジェンスモデルの開発は、高品質なロボットのデモデータへのアクセスに依存する。
異種多種多様なロボットデータを扱うための視覚言語アクションフレームワークであるHiMoE-VLAを提案する。
HiMoE-VLAは既存のVLAベースラインよりも一貫したパフォーマンス向上を示し、高い精度と堅牢な一般化を実現している。
論文 参考訳(メタデータ) (2025-12-05T13:21:05Z) - Robot Control Stack: A Lean Ecosystem for Robot Learning at Scale [11.166320712764465]
VLA(Vision-Language-Action Model)は、専門的なアーキテクチャと専門家ポリシーのタスクに適したコンポーネントを、大規模なデータ収集とセットアップ固有の微調整に置き換える。
従来のロボットソフトウェアフレームワークはボトルネックとなり、ロボットシミュレーションは、実世界の実験への移行を限定的にサポートする。
我々は、大規模なジェネラリストポリシーによるロボット学習の研究を支援するために、ゼロから設計されたリーンエコシステムであるRobot Control Stack (RCS)を紹介した。
論文 参考訳(メタデータ) (2025-09-18T13:12:16Z) - DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control [7.626715427413578]
視覚言語アクション(VLA)モデルは、一般化可能なロボットスキルを約束している。
現在のVLAモデルは視覚言語モデル(VLM)コンポーネントのスケーリングに重点を置いていることが多いが、アクション空間の表現は依然として重要なボトルネックである。
本稿では,複雑な長期タスクに対するVLAの効率性と一般化能力を向上する新しいフレームワークであるDexVLAを紹介する。
論文 参考訳(メタデータ) (2025-02-09T11:25:56Z) - RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation [23.554917579133576]
本稿では,ロボット拡散変換器(RDT)について述べる。
RDTは、マルチモーダリティを効果的に表現するために拡散モデルを構築し、スケーラブルトランスフォーマーの革新的な設計である。
さらに,様々なロボットの動作表現を統一する物理解釈可能な統一行動空間を導入する。
論文 参考訳(メタデータ) (2024-10-10T12:33:46Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。