論文の概要: DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI
- arxiv url: http://arxiv.org/abs/2602.14974v1
- Date: Mon, 16 Feb 2026 17:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.493008
- Title: DM0: An Embodied-Native Vision-Language-Action Model towards Physical AI
- Title(参考訳): DM0:物理AIに向けた身体的負の視覚-言語-行動モデル
- Authors: En Yu, Haoran Lv, Jianjian Sun, Kangheng Lin, Ruitao Zhang, Yukang Shi, Yuyang Chen, Ze Chen, Ziheng Zhang, Fan Jia, Kaixin Liu, Meng Zhang, Ruitao Hao, Saike Huang, Songhan Xie, Yu Liu, Zhao Wu, Bin Xie, Pengwei Zhang, Qi Yang, Xianchi Deng, Yunfei Wei, Enwen Zhang, Hongyang Peng, Jie Zhao, Kai Liu, Wei Sun, Yajun Wei, Yi Yang, Yunqiao Zhang, Ziwei Yan, Haitao Yang, Hao Liu, Haoqiang Fan, Haowei Zhang, Junwen Huang, Yang Chen, Yunchao Ma, Yunhuan Yang, Zhengyuan Du, Ziming Liu, Jiahui Niu, Yucheng Zhao, Daxin Jiang, Wenbin Tang, Xiangyu Zhang, Zheng Ge, Erjin Zhou, Tiancai Wang,
- Abstract要約: 我々は,物理AI用に設計された身体的負の視覚・言語・アクション・フレームワークであるDM0を提案する。
当社の方法論は,事前トレーニング,中級トレーニング,ポストトライニングという,包括的な3段階のパイプラインに従っています。
RoboChallengeベンチマークの実験では、DM0はスペシャリストとジェネリリストの両方で最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 84.9072161615971
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Moving beyond the traditional paradigm of adapting internet-pretrained models to physical tasks, we present DM0, an Embodied-Native Vision-Language-Action (VLA) framework designed for Physical AI. Unlike approaches that treat physical grounding as a fine-tuning afterthought, DM0 unifies embodied manipulation and navigation by learning from heterogeneous data sources from the onset. Our methodology follows a comprehensive three-stage pipeline: Pretraining, Mid-Training, and Post-Training. First, we conduct large-scale unified pretraining on the Vision-Language Model (VLM) using diverse corpora--seamlessly integrating web text, autonomous driving scenarios, and embodied interaction logs-to jointly acquire semantic knowledge and physical priors. Subsequently, we build a flow-matching action expert atop the VLM. To reconcile high-level reasoning with low-level control, DM0 employs a hybrid training strategy: for embodied data, gradients from the action expert are not backpropagated to the VLM to preserve generalized representations, while the VLM remains trainable on non-embodied data. Furthermore, we introduce an Embodied Spatial Scaffolding strategy to construct spatial Chain-of-Thought (CoT) reasoning, effectively constraining the action solution space. Experiments on the RoboChallenge benchmark demonstrate that DM0 achieves state-of-the-art performance in both Specialist and Generalist settings on Table30.
- Abstract(参考訳): インターネットで事前訓練されたモデルを物理的なタスクに適応するという従来のパラダイムを超えて、私たちは、物理AI用に設計されたEmbodied-Native Vision-Language-Action (VLA)フレームワークであるDM0を紹介します。
物理グラウンドリングを微調整後処理として扱うアプローチとは異なり、DM0は、オンセットから異種データソースから学習することで、具体的操作とナビゲーションを統一する。
当社の方法論は,事前トレーニング,中級トレーニング,ポストトライニングという,包括的な3段階のパイプラインに従っています。
まず,視覚言語モデル (VLM) を用いた大規模統合事前学習を行い,Webテキスト,自律運転シナリオ,具体的対話ログをシームレスに統合し,セマンティック知識と身体的事前知識を共同で獲得する。
次に、VLM上にフローマッチングアクションエキスパートを構築します。
DM0は、低レベルの制御で高レベルの推論を再現するために、ハイブリッドなトレーニング戦略を採用している: 具体化されたデータに対して、アクションエキスパートからの勾配は一般化された表現を維持するためにVLMに逆転されないが、VLMは非電子化されたデータでトレーニング可能である。
さらに,行動解空間を効果的に制約し,空間的連鎖(CoT)推論を構築するための身体的空間共有戦略を導入する。
RoboChallengeベンチマークの実験では、DM0はTable30のスペシャリストとジェネリストの両方で最先端のパフォーマンスを実現している。
関連論文リスト
- Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning [31.000965640377128]
ABot-M0は、システマティックデータキュレーションパイプラインを構築するフレームワークである。
これは不均一な生データを統一的で効率的な表現にエンドツーエンドに変換することを可能にする。
ABot-M0はデュアルストリーム機構を通じてモジュール認識をサポートする。
論文 参考訳(メタデータ) (2026-02-11T16:47:01Z) - mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。
提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文 参考訳(メタデータ) (2025-12-17T18:47:31Z) - iFlyBot-VLA Technical Report [25.330744626382977]
iFlyBot-VLA(iFlyBot-VLA)は、新しいフレームワークでトレーニングされた大規模ビジョン・ランゲージ・アクション(VLA)モデルである。
主なコントリビューションは,(1)大規模人体とロボットの操作映像を徹底的に訓練した潜在行動モデル,(2)視覚言語モデル(VLM)と訓練中のアクションエキスパートを協調的に監督する2段階の行動表現フレームワーク,(3)ロボット軌道データと一般的なQAデータセットと空間QAデータセットを組み合わせた混合トレーニング戦略である。
論文 参考訳(メタデータ) (2025-11-01T06:24:56Z) - Rethinking Visual Intelligence: Insights from Video Pretraining [75.32388528274224]
大規模言語モデル(LLM)は、大規模事前学習によってシステムが新しい問題に迅速に適応できることを実証している。
本稿では,映像拡散モデル(VDM)をギャップを埋めるための有望な方向として検討する。
論文 参考訳(メタデータ) (2025-10-28T14:12:11Z) - Bridge Thinking and Acting: Unleashing Physical Potential of VLM with Generalizable Action Expert [60.88976842557026]
VLM(Vision-Language Models)は、優れた計画と推論能力を示している。
最近の二重系アプローチは「思考」と「行動」を分離しようとする
一般化可能なアクションエキスパートを中心としたフレームワークを紹介します。
論文 参考訳(メタデータ) (2025-10-04T18:33:27Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。