論文の概要: EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control
- arxiv url: http://arxiv.org/abs/2508.21112v3
- Date: Tue, 09 Sep 2025 14:36:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:26.94153
- Title: EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control
- Title(参考訳): EmbodiedOneVision:汎用ロボット制御のためのインターリーブ型視覚テキスト・アクション・プレトレーニング
- Authors: Delin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang,
- Abstract要約: EO-RoboticsはEO-1モデルとEO-Data1.5Mデータセットで構成されている。
EO-1の開発は、(i)マルチモーダル入力を無差別に処理する統一アーキテクチャという、2つの重要な柱に基づいている。
EO-1は、EO-Data1.5M上の自己回帰復号とフローマッチングの相乗効果によって訓練される。
- 参考スコア(独自算出の注目度): 29.50006431601862
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The human ability to seamlessly perform multimodal reasoning and physical interaction in the open world is a core goal for general-purpose embodied intelligent systems. Recent vision-language-action (VLA) models, which are co-trained on large-scale robot and visual-text data, have demonstrated notable progress in general robot control. However, they still fail to achieve human-level flexibility in interleaved reasoning and interaction. In this work, introduce EO-Robotics, consists of EO-1 model and EO-Data1.5M dataset. EO-1 is a unified embodied foundation model that achieves superior performance in multimodal embodied reasoning and robot control through interleaved vision-text-action pre-training. The development of EO-1 is based on two key pillars: (i) a unified architecture that processes multimodal inputs indiscriminately (image, text, video, and action), and (ii) a massive, high-quality multimodal embodied reasoning dataset, EO-Data1.5M, which contains over 1.5 million samples with emphasis on interleaved vision-text-action comprehension. EO-1 is trained through synergies between auto-regressive decoding and flow matching denoising on EO-Data1.5M, enabling seamless robot action generation and multimodal embodied reasoning. Extensive experiments demonstrate the effectiveness of interleaved vision-text-action learning for open-world understanding and generalization, validated through a variety of long-horizon, dexterous manipulation tasks across multiple embodiments. This paper details the architecture of EO-1, the data construction strategy of EO-Data1.5M, and the training methodology, offering valuable insights for developing advanced embodied foundation models.
- Abstract(参考訳): オープンワールドにおけるマルチモーダル推論と物理的相互作用をシームレスに行う人間の能力は、汎用的なインボディード・インテリジェントシステムの中核的な目標である。
近年の視覚-言語-アクション(VLA)モデルは,大規模ロボットと視覚-テキストデータで協調訓練されており,一般的なロボット制御において顕著な進歩を見せている。
しかし、それらは、インターリーブされた推論と相互作用において人間レベルの柔軟性を達成できない。
本研究では、EO-1モデルとEO-Data1.5MデータセットからなるEO-Roboticsを紹介する。
EO-1は,マルチモーダルなインボディード推論とロボット制御において,視覚-テキスト-アクション事前学習による優れた性能を実現する,統一的エンボディード基礎モデルである。
EO-1の開発は2つの重要な柱に基づいている。
一 マルチモーダル入力(画像、テキスト、ビデオ及びアクション)を無差別に処理する統一アーキテクチャ
(II)大規模で高品質なマルチモーダル・エンボディ・推論データセットであるEO-Data1.5Mは150万以上のサンプルを含み、インターリーブド・ビジョン・テキスト・アクションの理解に重点を置いている。
EO-1は、EO-Data1.5M上での自己回帰復号とフローマッチングの相乗効果によって訓練され、シームレスなロボットアクション生成とマルチモーダルな具体的推論を可能にする。
広汎な実験は、オープンワールド理解と一般化のためのインターリーブド・ビジョン・テキスト・アクション・ラーニングの有効性を実証し、複数の実施形態にまたがる様々な長い水平な巧妙な操作タスクを通して検証した。
本稿では,EO-1のアーキテクチャ,EO-Data1.5Mのデータ構築戦略,およびトレーニング手法について述べる。
関連論文リスト
- H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation [27.585828712261232]
H-RDT(Human to Robotics Diffusion Transformer)は、人間の操作データを利用してロボット操作能力を向上する新しいアプローチである。
私たちの重要な洞察は、大規模なエゴセントリックな人間操作ビデオとペアの3Dハンドポーズアノテーションが、自然な操作戦略を捉えたリッチな行動優先を提供するということです。
本研究では,(1)大規模な人間操作データに対する事前トレーニング,(2)モジュール型アクションエンコーダとデコーダを用いたロボット固有のデータに対するクロスエボディメント微調整という2段階の訓練パラダイムを導入する。
論文 参考訳(メタデータ) (2025-07-31T13:06:59Z) - ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model [21.844214660424175]
ChatVLAは、初期制御熟達後のマルチモーダルデータを段階的に統合するフェーズアライメントトレーニングと、タスク干渉を最小限に抑えるMixture-of-Expertsアーキテクチャを特徴とする、新しいフレームワークである。
ChatVLAは、視覚的問合せデータセット上での競合性能を示し、マルチモーダル理解ベンチマークにおける最先端のビジョン言語アクション(VLA)メソッドを大幅に上回っている。
本研究は,ロバストなマルチモーダル理解と効果的なロボット制御を実現するための統合フレームワークの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-02-20T10:16:18Z) - TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。
我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。
4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:40:51Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。