論文の概要: InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy
- arxiv url: http://arxiv.org/abs/2510.13778v1
- Date: Wed, 15 Oct 2025 17:30:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.790733
- Title: InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy
- Title(参考訳): InternVLA-M1:ジェネラリストロボット政策のための空間誘導型ビジョンランゲージ・アクション・フレームワーク
- Authors: Xinyi Chen, Yilun Chen, Yanwei Fu, Ning Gao, Jiaya Jia, Weiyang Jin, Hao Li, Yao Mu, Jiangmiao Pang, Yu Qiao, Yang Tian, Bin Wang, Bolun Wang, Fangjing Wang, Hanqing Wang, Tai Wang, Ziqin Wang, Xueyuan Wei, Chao Wu, Shuai Yang, Jinhui Ye, Junqiu Yu, Jia Zeng, Jingjing Zhang, Jinyu Zhang, Shi Zhang, Feng Zheng, Bowen Zhou, Yangkun Zhu,
- Abstract要約: 空間接地とロボット制御のための統合フレームワークであるInternVLA-M1を紹介する。
InternVLA-M1は、(i)2.3M以上の空間的推論データに基づく空間的グラウンドトレーニングと(ii)空間的に誘導された後トレーニングという、2段階のパイプラインを使用する。
結果: InternVLA-M1 は SimplerEnv Google Robot で+14.6%、WidowX で+17%、LIBERO Franka で+4.3% で、空間誘導なしでその変種を上回った。
- 参考スコア(独自算出の注目度): 138.89177083578213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce InternVLA-M1, a unified framework for spatial grounding and robot control that advances instruction-following robots toward scalable, general-purpose intelligence. Its core idea is spatially guided vision-language-action training, where spatial grounding serves as the critical link between instructions and robot actions. InternVLA-M1 employs a two-stage pipeline: (i) spatial grounding pre-training on over 2.3M spatial reasoning data to determine ``where to act'' by aligning instructions with visual, embodiment-agnostic positions, and (ii) spatially guided action post-training to decide ``how to act'' by generating embodiment-aware actions through plug-and-play spatial prompting. This spatially guided training recipe yields consistent gains: InternVLA-M1 outperforms its variant without spatial guidance by +14.6% on SimplerEnv Google Robot, +17% on WidowX, and +4.3% on LIBERO Franka, while demonstrating stronger spatial reasoning capability in box, point, and trace prediction. To further scale instruction following, we built a simulation engine to collect 244K generalizable pick-and-place episodes, enabling a 6.2% average improvement across 200 tasks and 3K+ objects. In real-world clustered pick-and-place, InternVLA-M1 improved by 7.3%, and with synthetic co-training, achieved +20.6% on unseen objects and novel configurations. Moreover, in long-horizon reasoning-intensive scenarios, it surpassed existing works by over 10%. These results highlight spatially guided training as a unifying principle for scalable and resilient generalist robots. Code and models are available at https://github.com/InternRobotics/InternVLA-M1.
- Abstract(参考訳): InternVLA-M1は、空間接地とロボット制御のための統合されたフレームワークで、命令追従ロボットをスケーラブルで汎用的なインテリジェンスに進化させる。
その中核となる考え方は空間誘導型視覚言語行動訓練であり、空間的接地は指示とロボットの行動の間に重要なリンクとなる。
InternVLA-M1には2段階のパイプラインがある。
2三百万以上の空間的推論データに基づく空間的接地事前学習において、視覚的、具体的、非知的な位置と指示を整合させることにより「行動すべき場所」を決定すること
(2) プラグアンドプレイ空間的プロンプトにより身体認識行動を生成することにより, 「行動の仕方」を決定するための空間的指導行動。
InternVLA-M1は、SimplerEnv Google Robotで+14.6%、WidowXで+17%、LIBERO Frankaで+4.3%、ボックス、ポイント、トレース予測でより強力な空間推論能力を示している。
さらに,200のタスクと3K以上のオブジェクトに対して平均6.2%の改善を実現し,244Kの一般化可能なピック・アンド・プレイスエピソードを収集するシミュレーションエンジンを構築した。
現実世界のクラスタ化されたピック・アンド・プレイスでは、InternVLA-M1は7.3%改善され、合成コトレーニングにより、目に見えない物体や新しい構成で+20.6%を達成した。
さらに、長期にわたる推論集約的なシナリオでは、既存の作品を10%以上超えた。
これらの結果は、スケーラブルでレジリエントなジェネラリストロボットのための統一原則として、空間的指導によるトレーニングを強調している。
コードとモデルはhttps://github.com/InternRobotics/InternVLA-M1.comで公開されている。
関連論文リスト
- RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics [54.441878000440965]
空間参照は、3D物理世界と相互作用するエンボディロボットの基本的な能力である。
本稿では,まず空間的理解を正確に行うことのできる3次元VLMであるRoboReferを提案する。
RFTで訓練されたRoboReferは最先端の空間理解を実現し、平均成功率は89.6%である。
論文 参考訳(メタデータ) (2025-06-04T17:59:27Z) - SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model [45.03115608632622]
空間理解はロボット操作のキーポイントです
本研究では,ロボット基盤モデルのための効果的な空間表現を探索する空間VLAを提案する。
提案したAdaptive Action Gridsは,事前学習したSpatialVLAモデルを微調整し,新しいシミュレーションと実世界のセットアップを実現するための,新しい効果的な方法を提供する。
論文 参考訳(メタデータ) (2025-01-27T07:34:33Z) - Habitat 2.0: Training Home Assistants to Rearrange their Habitat [122.54624752876276]
インタラクティブな3D環境で仮想ロボットを訓練するためのシミュレーションプラットフォームHabitat 2.0(H2.0)を紹介する。
エンボディされたAIスタックのすべてのレベル – データ、シミュレーション、ベンチマークタスク – にコントリビューションを行います。
論文 参考訳(メタデータ) (2021-06-28T05:42:15Z) - Sim-to-Real Transfer for Vision-and-Language Navigation [70.86250473583354]
本研究では,従来は目に見えなかった環境下でロボットを解放し,制約のない自然言語ナビゲーション指示に従うという課題について検討する。
VLN(Vision-and-Language Navigation)の課題に関する最近の研究は、シミュレーションにおいて大きな進歩を遂げている。
ロボット工学における本研究の意義を評価するため,シミュレーションで訓練されたVLNエージェントを物理ロボットに転送する。
論文 参考訳(メタデータ) (2020-11-07T16:49:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。