Fugu-MT 論文翻訳(概要): EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control

論文の概要: EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control

arxiv url: http://arxiv.org/abs/2508.21112v2
Date: Mon, 01 Sep 2025 00:28:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-03 12:29:36.817676
Title: EmbodiedOneVision: Interleaved Vision-Text-Action Pretraining for General Robot Control
Title（参考訳）: EmbodiedOneVision:汎用ロボット制御のためのインターリーブ型視覚テキスト・アクション・プレトレーニング
Authors: Delin Qu, Haoming Song, Qizhi Chen, Zhaoqing Chen, Xianqiang Gao, Xinyi Ye, Qi Lv, Modi Shi, Guanghui Ren, Cheng Ruan, Maoqing Yao, Haoran Yang, Jiacheng Bao, Bin Zhao, Dong Wang,
Abstract要約: EO-RoboticsはEO-1モデルとEO-Data1.5Mデータセットで構成されている。 EO-1の開発は、(i)マルチモーダル入力を無差別に処理する統一アーキテクチャという、2つの重要な柱に基づいている。 EO-1は、EO-Data1.5M上の自己回帰復号とフローマッチングの相乗効果によって訓練される。
参考スコア（独自算出の注目度）: 29.50006431601862
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The human ability to seamlessly perform multimodal reasoning and physical interaction in the open world is a core goal for general-purpose embodied intelligent systems. Recent vision-language-action (VLA) models, which are co-trained on large-scale robot and visual-text data, have demonstrated notable progress in general robot control. However, they still fail to achieve human-level flexibility in interleaved reasoning and interaction. In this work, introduce EO-Robotics, consists of EO-1 model and EO-Data1.5M dataset. EO-1 is a unified embodied foundation model that achieves superior performance in multimodal embodied reasoning and robot control through interleaved vision-text-action pre-training. The development of EO-1 is based on two key pillars: (i) a unified architecture that processes multimodal inputs indiscriminately (image, text, video, and action), and (ii) a massive, high-quality multimodal embodied reasoning dataset, EO-Data1.5M, which contains over 1.5 million samples with emphasis on interleaved vision-text-action comprehension. EO-1 is trained through synergies between auto-regressive decoding and flow matching denoising on EO-Data1.5M, enabling seamless robot action generation and multimodal embodied reasoning. Extensive experiments demonstrate the effectiveness of interleaved vision-text-action learning for open-world understanding and generalization, validated through a variety of long-horizon, dexterous manipulation tasks across multiple embodiments. This paper details the architecture of EO-1, the data construction strategy of EO-Data1.5M, and the training methodology, offering valuable insights for developing advanced embodied foundation models.
Abstract（参考訳）: オープンワールドにおけるマルチモーダル推論と物理的相互作用をシームレスに行う人間の能力は、汎用的なインボディード・インテリジェントシステムの中核的な目標である。近年の視覚-言語-アクション(VLA)モデルは,大規模ロボットと視覚-テキストデータで協調訓練されており,一般的なロボット制御において顕著な進歩を見せている。しかし、それらは、インターリーブされた推論と相互作用において人間レベルの柔軟性を達成できない。本研究では、EO-1モデルとEO-Data1.5MデータセットからなるEO-Roboticsを紹介する。 EO-1は,マルチモーダルなインボディード推論とロボット制御において,視覚-テキスト-アクション事前学習による優れた性能を実現する,統一的エンボディード基礎モデルである。 EO-1の開発は2つの重要な柱に基づいている。一マルチモーダル入力(画像、テキスト、ビデオ及びアクション)を無差別に処理する統一アーキテクチャ (II)大規模で高品質なマルチモーダル・エンボディ・推論データセットであるEO-Data1.5Mは150万以上のサンプルを含み、インターリーブド・ビジョン・テキスト・アクションの理解に重点を置いている。 EO-1は、EO-Data1.5M上での自己回帰復号とフローマッチングの相乗効果によって訓練され、シームレスなロボットアクション生成とマルチモーダルな具体的推論を可能にする。広汎な実験は、オープンワールド理解と一般化のためのインターリーブド・ビジョン・テキスト・アクション・ラーニングの有効性を実証し、複数の実施形態にまたがる様々な長い水平な巧妙な操作タスクを通して検証した。本稿では,EO-1のアーキテクチャ,EO-Data1.5Mのデータ構築戦略,およびトレーニング手法について述べる。

関連論文リスト

MiVLA: Towards Generalizable Vision-Language-Action Model with Human-Robot Mutual Imitation Pre-training [102.850162490626]
人間のロボットによる相互模倣事前学習による視覚-言語-行動モデルであるMiVLAを提案する。 MiVLAは、最先端のVLAよりも優れた、強力な改良された一般化能力を実現する。
論文参考訳（メタデータ） (2025-12-17T12:59:41Z)
Mind to Hand: Purposeful Robotic Control via Embodied Reasoning [12.275897522668858]
ロボットの推論(「ミンド」)とロボットの動作(「手」)を統一するモデルであるLumo-1を紹介する。我々のアプローチは、事前学習された視覚言語モデル(VLM)の一般的なマルチモーダル推論能力に基づいている。我々は、強化学習を統合し、推論-動作の一貫性をさらに洗練し、意味推論と運動制御のループを閉じる。
論文参考訳（メタデータ） (2025-12-09T13:19:37Z)
Evo-1: Lightweight Vision-Language-Action Model with Preserved Semantic Alignment [13.582337741042773]
VLA(Vision-Language-Action)モデルは、知覚、言語、制御を統一し、ロボットがマルチモーダル理解を通じて多様なタスクを実行できる強力なフレームワークとして登場した。現行のVLAモデルは一般に大量のパラメータを含んでおり、大規模なロボットデータの事前トレーニングに大きく依存しているため、トレーニング中に高い計算コストがかかり、リアルタイム推論へのデプロイが制限される。本稿では,ロボットデータを事前学習することなく高い性能を維持しつつ,計算を削減し,デプロイメント効率を向上させる軽量VLAモデルであるEvo-1を提案する。
論文参考訳（メタデータ） (2025-11-06T17:07:49Z)
Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey [45.10095869091538]
膨大な画像テキストデータセットに基づいて事前訓練されたLarge Vision-Language Models (VLM) 上に構築されたVLAモデルが、トランスフォーメーションパラダイムとして登場した。この調査は、ロボット操作のための大規模なVLMベースのVLAモデルの、最初の体系的で分類指向のレビューを提供する。
論文参考訳（メタデータ） (2025-08-18T16:45:48Z)
H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation [27.585828712261232]
H-RDT(Human to Robotics Diffusion Transformer)は、人間の操作データを利用してロボット操作能力を向上する新しいアプローチである。私たちの重要な洞察は、大規模なエゴセントリックな人間操作ビデオとペアの3Dハンドポーズアノテーションが、自然な操作戦略を捉えたリッチな行動優先を提供するということです。本研究では,(1)大規模な人間操作データに対する事前トレーニング,(2)モジュール型アクションエンコーダとデコーダを用いたロボット固有のデータに対するクロスエボディメント微調整という2段階の訓練パラダイムを導入する。
論文参考訳（メタデータ） (2025-07-31T13:06:59Z)
ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model [21.844214660424175]
ChatVLAは、初期制御熟達後のマルチモーダルデータを段階的に統合するフェーズアライメントトレーニングと、タスク干渉を最小限に抑えるMixture-of-Expertsアーキテクチャを特徴とする、新しいフレームワークである。 ChatVLAは、視覚的問合せデータセット上での競合性能を示し、マルチモーダル理解ベンチマークにおける最先端のビジョン言語アクション(VLA)メソッドを大幅に上回っている。本研究は,ロバストなマルチモーダル理解と効果的なロボット制御を実現するための統合フレームワークの可能性を明らかにするものである。
論文参考訳（メタデータ） (2025-02-20T10:16:18Z)
REO-VLM: Transforming VLM to Meet Regression Challenges in Earth Observation [58.91579272882073]
本稿では,地球観測領域に特有な回帰・生成タスクを統合するために,textbfREO-Instructと呼ばれる新しいベンチマークデータセットを提案する。我々は,回帰機能を従来の生成関数とシームレスに統合する基盤モデルであるtextbfREO-VLM を開発した。
論文参考訳（メタデータ） (2024-12-21T11:17:15Z)
TraceVLA: Visual Trace Prompting Enhances Spatial-Temporal Awareness for Generalist Robotic Policies [95.30717188630432]
VLAモデルの行動予測のための時空間認識を容易にするために,視覚的トレースプロンプトを導入する。我々は,これまでに収集した150Kロボット操作トラジェクトリのデータセットに基づいてOpenVLAを微調整し,新しいTraceVLAモデルを開発した。 4B Phi-3-Vision に基づくコンパクトな VLA モデルを提案する。
論文参考訳（メタデータ） (2024-12-13T18:40:51Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文参考訳（メタデータ） (2024-06-17T17:55:29Z)
Expanding Frozen Vision-Language Models without Retraining: Towards Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-08-31T06:53:55Z)
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文参考訳（メタデータ） (2023-07-28T21:18:02Z)
LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset, Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文参考訳（メタデータ） (2023-06-11T14:01:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。