論文の概要: InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2601.02456v2
- Date: Fri, 13 Feb 2026 18:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.642976
- Title: InternVLA-A1: Unifying Understanding, Generation and Action for Robotic Manipulation
- Title(参考訳): InternVLA-A1:ロボットマニピュレーションの理解・生成・動作の統一化
- Authors: Junhao Cai, Zetao Cai, Jiafei Cao, Yilun Chen, Zeyu He, Lei Jiang, Hang Li, Hengjie Li, Yang Li, Yufei Liu, Yanan Lu, Qi Lv, Haoxiang Ma, Jiangmiao Pang, Yu Qiao, Zherui Qiu, Yanqing Shen, Xu Shi, Yang Tian, Bolun Wang, Hanqing Wang, Jiaheng Wang, Tai Wang, Xueyuan Wei, Chao Wu, Yiman Xie, Boyang Xing, Yuqiang Yang, Yuyin Yang, Qiaojun Yu, Feng Yuan, Jia Zeng, Jingjing Zhang, Shenghan Zhang, Shi Zhang, Zhuoma Zhaxi, Bowen Zhou, Yuanzhen Zhou, Yunsong Zhou, Hongrui Zhu, Yangkun Zhu, Yuchen Zhu,
- Abstract要約: InternVLA-A1は動的予測機能を備えた視覚言語モデルである。
我々は、実世界のロボットデータ、合成シミュレーションデータ、人間のビデオなどを用いて、これらのモデルを異種データソース上で事前訓練する。
InternVLA-A1を実世界の12のロボットタスクとシミュレーションベンチマークで評価した。
- 参考スコア(独自算出の注目度): 77.07565723756119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prevalent Vision-Language-Action (VLA) models are typically built upon Multimodal Large Language Models (MLLMs) and demonstrate exceptional proficiency in semantic understanding, but they inherently lack the capability to deduce physical world dynamics. Consequently, recent approaches have shifted toward World Models, typically formulated via video prediction; however, these methods often suffer from a lack of semantic grounding and exhibit brittleness in the presence of video prediction errors. To synergize semantic understanding with dynamic predictive capabilities, we present InternVLA-A1. This model employs a unified Mixture-of-Transformers architecture, coordinating three experts for scene understanding, visual foresight generation, and action execution. These components interact seamlessly through a unified masked self attention mechanism. Building upon InternVL3 and Qwen3-VL, we instantiate InternVLA-A1 at 2B and 3B parameter scales. We pre-train these models on heterogeneous data sources over real-world robot data, synthetic simulation data, and human videos, covering over 692M frames. This hybrid training strategy effectively harnesses the diversity of synthetic simulation data while minimizing the sim-to-real gap. We evaluated InternVLA-A1 on 12 real-world robotic tasks and a simulation benchmark. The results show that InternVLA-A1 consistently outperforms prior leading models: compared with pi0.5, it achieves +4.4\% on static manipulation tasks and +2.6\% on the RoboTwin 2.0 simulation benchmark, and delivers a +26.7\% boost on dynamic manipulation tasks.
- Abstract(参考訳): VLA(Prevalent Vision-Language-Action)モデルは一般的にMLLM(Multimodal Large Language Models)上に構築され、セマンティックな理解に優れた能力を示すが、物理的世界力学を推論する能力は本質的に欠如している。
その結果、近年のアプローチは、一般的にビデオ予測によって定式化された世界モデルへと移行しているが、これらの手法は意味的根拠の欠如に悩まされ、ビデオ予測エラーの存在下で脆弱さを示すことが多い。
InternVLA-A1を提案する。
このモデルはMixture-of-Transformersアーキテクチャを採用し、シーン理解、視覚的フォレスト生成、アクション実行の3つの専門家をコーディネートする。
これらのコンポーネントは、統一された自己注意機構を通じてシームレスに相互作用する。
InternVL3とQwen3-VLに基づいて、2Bおよび3BパラメータスケールでInternVLA-A1をインスタンス化する。
実世界のロボットデータ, 合成シミュレーションデータ, 人間のビデオから, 692万フレーム以上をカバーする異種データソース上で, これらのモデルを事前学習する。
このハイブリッドトレーニング戦略は、sim-to-realギャップを最小化しながら、合成シミュレーションデータの多様性を効果的に活用する。
InternVLA-A1を実世界の12のロボットタスクとシミュレーションベンチマークで評価した。
InternVLA-A1 は pi0.5 と比較して静的な操作タスクで +4.4\%、RoboTwin 2.0 シミュレーションベンチマークで +2.6\%、動的操作タスクで +26.7\% 向上している。
関連論文リスト
- DiT4DiT: Jointly Modeling Video Dynamics and Actions for Generalizable Robot Control [16.562259973551786]
本稿では,ビデオ拡散変換器とアクション拡散変換器を結合したエンドツーエンドのビデオ・アクション・モデルであるDiT4DiTを紹介する。
DiT4DiTは、再構成後のフレームに頼る代わりに、ビデオ生成プロセスから中間的なデノイング機能を抽出する。
これは最先端の結果を達成し、LIBEROでは98.6%、RoboCasa GR1では50.8%という平均的な成功率に達した。
論文 参考訳(メタデータ) (2026-03-11T06:03:53Z) - Learning Physics from Pretrained Video Models: A Multimodal Continuous and Sequential World Interaction Models for Robotic Manipulation [63.04810454548667]
我々は、ロボット操作タスクを解決するために、スケーラブルで連続的かつシーケンシャルな世界インタラクションフレームワークであるPhysGenを紹介した。
トレーニング済みのビデオモデルを物理シミュレーターのプロキシとして扱うことで、PhysGenは外部環境とロボット動作の間の動的相互作用をモデル化する。
本稿では,映像とアクションを共有物理トークンに統合し,離散映像生成と連続ロボット制御のギャップを埋めるマルチモーダル連続表現を提案する。
論文 参考訳(メタデータ) (2026-02-18T14:58:18Z) - ABot-M0: VLA Foundation Model for Robotic Manipulation with Action Manifold Learning [31.000965640377128]
ABot-M0は、システマティックデータキュレーションパイプラインを構築するフレームワークである。
これは不均一な生データを統一的で効率的な表現にエンドツーエンドに変換することを可能にする。
ABot-M0はデュアルストリーム機構を通じてモジュール認識をサポートする。
論文 参考訳(メタデータ) (2026-02-11T16:47:01Z) - Causal World Modeling for Robot Control [56.31803788587547]
ビデオワールドモデルは、アクションと視覚力学の因果関係を理解することによって、近い将来に想像できる能力を提供する。
本稿では,フレーム予測とポリシ実行を同時に学習する自動回帰拡散フレームワークLingBot-VAを紹介する。
シミュレーションベンチマークと実世界のシナリオの両方でモデルを評価したところ、長距離操作、ポストトレーニングにおけるデータ効率、新しい構成への強力な一般化性などに大きな可能性を示唆している。
論文 参考訳(メタデータ) (2026-01-29T17:07:43Z) - mimic-video: Video-Action Models for Generalizable Robot Control Beyond VLAs [5.109732854501585]
そこで我々は,事前学習したインターネットスケールのビデオモデルと,その潜在表現に条件付けされたフローマッチングに基づくアクションデコーダを組み合わせた,新しいビデオ・アクション・モデル(VAM)を提案する。
提案手法は,シミュレーションおよび実世界のロボット操作タスクにおける最先端性能を実現し,サンプル効率を10倍,収束速度を2倍向上させる。
論文 参考訳(メタデータ) (2025-12-17T18:47:31Z) - URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。
URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。
シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-11-02T13:45:51Z) - Physical Autoregressive Model for Robotic Manipulation without Action Pretraining [65.8971623698511]
我々は、自己回帰ビデオ生成モデルを構築し、物理自己回帰モデル(PAR)を提案する。
PARは、アクション事前トレーニングを必要とせず、物理力学を理解するために、ビデオ事前トレーニングに埋め込まれた世界の知識を活用する。
ManiSkillベンチマークの実験は、PARがPushCubeタスクで100%の成功率を達成したことを示している。
論文 参考訳(メタデータ) (2025-08-13T13:54:51Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。