論文の概要: 3D-Mix for VLA: A Plug-and-Play Module for Integrating VGGT-based 3D Information into Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2603.24393v1
- Date: Wed, 25 Mar 2026 15:10:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.354494
- Title: 3D-Mix for VLA: A Plug-and-Play Module for Integrating VGGT-based 3D Information into Vision-Language-Action Models
- Title(参考訳): 3D-Mix for VLA:VGGTベースの3D情報を視覚・言語・アクションモデルに統合するためのプラグイン・アンド・プレイモジュール
- Authors: Bin Yu, Shijie Lian, Xiaopeng Lin, Zhaolong Shen, Yuliang Wei, Haishan Liu, Changti Wu, Hang Yuan, Bailing Wang, Cong Huang, Kai Chen,
- Abstract要約: Vision-Language-Action (VLA)モデルは、ロボット制御にMultimodal Large Language Models (MLLM)を利用する。
近年のアプローチでは、空間的理解を高めるために、VGGTのような特殊な3次元視覚モデルが取り入れられている。
3D-Mixは,既存のMLLMやアクションエキスパートコンポーネントを変更することなく,多様なVLAアーキテクチャに統合可能なプラグイン・アンド・プレイモジュールである。
- 参考スコア(独自算出の注目度): 22.449197838619764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models leverage Multimodal Large Language Models (MLLMs) for robotic control, but recent studies reveal that MLLMs exhibit limited spatial intelligence due to training predominantly on 2D data, resulting in inadequate 3D perception for manipulation tasks. While recent approaches incorporate specialized 3D vision models such as VGGT to enhance spatial understanding, they employ diverse integration mechanisms without systematic investigation, leaving the optimal fusion strategy unclear. We conduct a comprehensive pilot study comparing nine VGGT integration schemes on standardized benchmarks and find that semantic-conditioned gated fusion, which adaptively balances 2D semantic and 3D geometric features based on task context, achieved the strongest performance among all nine evaluated fusion schemes in our pilot study. We present 3D-Mix, a plug-and-play module that integrates into diverse VLA architectures (GR00T-style and $π$-style) without modifying existing MLLM or action expert components. Experiments across six MLLM series (nine model variants, 2B--8B parameters) on SIMPLER and LIBERO show that 3D-Mix delivers consistent performance gains, averaging +7.0% on the out-of-domain (OOD) SIMPLER benchmark across all nine GR00T-style variants, establishing a principled approach for enhancing spatial intelligence in VLA systems.
- Abstract(参考訳): ビジョン・ランゲージ・アクション(VLA)モデルは、ロボット制御にMLLM(Multimodal Large Language Models)を利用するが、近年の研究により、MLLMは2次元データに基づくトレーニングによって限られた空間知性が示され、操作タスクの3次元認識が不十分であることが判明した。
近年のアプローチでは空間的理解を高めるためにVGGTのような特殊な3次元視覚モデルが取り入れられているが、体系的な調査なしに様々な統合機構を採用しており、最適な融合戦略は明確ではない。
我々は,9つのVGGT統合スキームを標準ベンチマークで比較した総合的なパイロット研究を行い,タスクコンテキストに基づく2次元意味的特徴と3次元幾何学的特徴を適応的にバランスさせる意味条件付きゲート融合が,パイロット研究で評価された9つの融合スキームの中で最も高い性能を示した。
本稿では,既存のMLLMやアクションエキスパートコンポーネントを変更することなく,多様なVLAアーキテクチャ(GR00Tスタイルと$π$スタイル)に統合可能な3D-Mixを提案する。
SIMPLER と LIBERO の6つのMLLMシリーズ(9つのモデル変種、2B--8B パラメータ)での実験では、3D-Mix が一貫した性能向上を実現し、平均値 +7.0% が OOD (out-of- domain) SIMPLER ベンチマークで 9つのGR00T スタイルの変種にまたがり、VLA システムにおける空間知性を高めるための原則的なアプローチを確立した。
関連論文リスト
- GAP-MLLM: Geometry-Aligned Pre-training for Activating 3D Spatial Perception in Multimodal Large Language Models [70.61152292499737]
このギャップは、幾何学的事前の不足から生じるものではなく、訓練パラダイムの誤った調整から生じるものである、と我々は主張する。
既存のアプローチでは、通常、特徴の結合を示唆し、幾何学的な監督なしに下流のタスクを直接最適化する。
本稿では,下流適応前の構造知覚を明示的に活性化する幾何学的事前学習パラダイムであるGAP-MLLMを提案する。
論文 参考訳(メタデータ) (2026-03-17T12:43:48Z) - D3D-VLP: Dynamic 3D Vision-Language-Planning Model for Embodied Grounding and Navigation [66.7166217399105]
エージェントは、エンドツーエンドモデルには解釈可能性や明示的な3D推論が欠けているという、重要なジレンマに直面します。
1) 計画,グラウンド,ナビゲーション,質問応答を単一の3D-VLMパイプラインとCoTパイプラインで統一する動的3Dチェーン(3D CoT) ; 2) フラグメンテッド・スーパービジョン(SLFS)戦略からのシナジスティック学習 マスク付き自己回帰損失を用いて,大規模かつ部分的に注釈付けされたハイブリッドデータから学習する。
論文 参考訳(メタデータ) (2025-12-14T09:53:15Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - MoRE: 3D Visual Geometry Reconstruction Meets Mixture-of-Experts [50.37005070020306]
MoREは、Mixture-of-Experts (MoE)アーキテクチャに基づいた、密集した3Dビジュアル基盤モデルである。
MoREは、幾何推定を安定させ、洗練する信頼に基づく深度補正モジュールを組み込んでいる。
高忠実な表面正規予測のために,高密度なセマンティック特徴とグローバルな3Dバックボーン表現を統合する。
論文 参考訳(メタデータ) (2025-10-31T06:54:27Z) - Vid-LLM: A Compact Video-based 3D Multimodal LLM with Reconstruction-Reasoning Synergy [4.1703677379815565]
外部の3Dデータを必要としないビデオ入力を直接処理するビデオベースの3D-MLLMであるVid-LLMを提案する。
本手法では, 偏見の知覚性能を向上させるために, 幾何先行法を直接的に用いた。
各種ベンチマーク実験により,3次元質問応答,3次元キャプション,3次元視覚的接地作業において,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2025-09-29T07:34:18Z) - TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [52.79100775328595]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。
既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。
本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-20T10:28:06Z) - CoherenDream: Boosting Holistic Text Coherence in 3D Generation via Multimodal Large Language Models Feedback [18.857087708269038]
SDS(Score Distillation Sampling)はテキストから3Dコンテンツ生成において顕著な成功を収めた。
SDSベースの手法はユーザプロンプトのセマンティックな忠実さを維持するのに苦労する。
マルチモーダル大言語モデル(MLLM)からのアライメントフィードバックを統合したテキストコヒーレントスコア蒸留(TCSD)を提案する。
論文 参考訳(メタデータ) (2025-04-28T14:50:45Z) - 3D-MoE: A Mixture-of-Experts Multi-modal LLM for 3D Vision and Pose Diffusion via Rectified Flow [69.94527569577295]
3次元の視覚と空間的推論は、長い間、我々の3次元の世界を正確に知覚するのに好ましいと認識されてきた。
高品質な3Dデータ収集の難しさから,近年,この領域の研究が勢いを増している。
我々は,既存の高密度活性化LDMをマルチモーダルデータ処理に有効であることが証明されたMix-of-experts(MoE)モデルに変換することを提案する。
論文 参考訳(メタデータ) (2025-01-28T04:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。