論文の概要: 3DThinkVLA: Endowing Vision-Language-Action Models with Latent 3D Priors via 3D-Thinking-Guided Co-training
- arxiv url: http://arxiv.org/abs/2606.04436v1
- Date: Wed, 03 Jun 2026 04:34:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.540246
- Title: 3DThinkVLA: Endowing Vision-Language-Action Models with Latent 3D Priors via 3D-Thinking-Guided Co-training
- Title(参考訳): 3DThinkVLA:3D-Thinking-Guided Co-trainingによる3D前駆体を用いた視覚・言語・行動モデル
- Authors: Jiaxin Shi, Xidong Zhang, Fucai Zhu, Zhe Li, Siyu Zhu, Weihao Yuan,
- Abstract要約: 3次元幾何学的知覚と3次元空間的推論は、異なる特徴階層で切り離され、注入される異なる能力である。
本稿では,視覚言語行動モデル(VLA)が行動予測中に暗黙的に3次元空間推論を行うことを可能にする3次元思考誘導協調学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 19.5808550016589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a 3D-thinking-guided co-training framework that enables vision-language-action (VLA) models to perform 3D spatial reasoning implicitly during action prediction. Our core insight is that 3D geometry perception and 3D spatial reasoning are distinct capabilities that can be disentangled and injected at different feature hierarchies. During training, three tightly coupled components work in concert primarily within the latent space: (1) To gain geometric priors, a latent 3D geometry perception module aligns intermediate visual features with a 3D foundation model, acquiring low-level geometric cues without architectural modifications to the VLM backbone. (2) Complementing this, an online 3D reasoning distillation module mitigates the prompt-induced reasoning gap via a shared reasoning anchor token. During 3D VLM co-training, this anchor is emitted as the first output token to robustly encode spatial priors. During VLA training, it serves as an input token inserted between the task and action instructions, transferring high-level spatial thinking from explicit teacher reasoning prompts to student action prompts without chain-of-thought text generation. (3) These disentangled geometric and reasoning features are then united by a spatially augmented action integration, which jointly injects them into the action-query tokens as hierarchical spatial conditions to prevent action shortcuts. At deployment, our method retains only its lightweight adapters to perform implicit 3D reasoning, discarding the 3D foundation model and the teacher branch used for supervision. Consequently, it operates purely on 2D images without 3D sensors, external models, or explicit text generation while preventing catastrophic forgetting of the pretrained VLM, achieving state-of-the-art performance on LIBERO, LIBERO-PLUS, SimplerEnv, and real-world manipulation tasks.
- Abstract(参考訳): 本稿では,視覚言語行動モデル(VLA)が行動予測中に暗黙的に3次元空間推論を行うことを可能にする3次元思考誘導協調学習フレームワークを提案する。
我々の中核となる洞察は、3次元幾何学的知覚と3次元空間的推論は、異なる特徴階層で切り離され、注入される異なる能力であるということである。
トレーニング中、3つの密結合したコンポーネントは、主に潜伏空間内で協調して働く: (1) 幾何学的先行性を得るために、潜伏した3次元幾何学的知覚モジュールは、中間的な視覚的特徴を3次元基礎モデルと整列させ、VLMバックボーンにアーキテクチャ的な変更を加えることなく低レベルの幾何学的手がかりを取得する。
2) オンライン3D推論蒸留モジュールは, 共有推論アンカートークンを介して, 迅速な推論ギャップを緩和する。
3D VLMのコトレーニングの間、このアンカーは空間先行を強固にエンコードする最初の出力トークンとして出力される。
VLAトレーニング中は、タスクとアクション命令の間に挿入される入力トークンとして機能し、明示的な教師推論プロンプトから高レベルの空間的思考を、チェーンオブテキスト生成なしで学生アクションプロンプトに転送する。
(3)これらの不規則な幾何学的特徴と推論的特徴は、空間的に拡張されたアクション統合によって結合され、アクションショートカットを防ぐための階層的な空間条件として、アクションクエリトークンにそれらを共同で注入する。
本手法は,3次元基礎モデルと教師ブランチを放棄し,暗黙的な3次元推論を行うための軽量アダプタのみを保持する。
これにより、3Dセンサーや外部モデル、明示的なテキスト生成を伴わない2D画像上で純粋に動作し、事前訓練されたVLMの破滅的な忘れを防止し、LIBERO、LIBERO-PLUS、SimplerEnv、実世界の操作タスクで最先端のパフォーマンスを実現する。
関連論文リスト
- PointACT: Vision-Language-Action Models with Multi-Scale Point-Action Interaction [57.63073414949329]
我々は,階層的な3Dポイントクラウド表現をアクションデコーディングプロセスに直接統合する,デュアルシステム3D対応VLAポリシーであるPointACTを提案する。
PointACTは、効率的なボトルネックウィンドウ自己アテンションを備えたマルチスケールのポイントアクションインタラクション機構を採用し、進化するアクショントークンが局所的な幾何学的詳細とグローバルなシーン構造の両方に密に関与できるようにする。
論文 参考訳(メタデータ) (2026-05-20T17:10:31Z) - Proxy3D: Efficient 3D Representations for Vision-Language Models via Semantic Clustering and Alignment [50.02189698630855]
本稿では,視覚モダリティのためのコンパクトかつ包括的な3Dプロキシ表現を備えたProxy3D法を提案する。
提案手法は,3次元視覚的質問応答,視覚的接地,空間知能のベンチマークにおいて,競合や最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-05-08T17:50:47Z) - GAP-MLLM: Geometry-Aligned Pre-training for Activating 3D Spatial Perception in Multimodal Large Language Models [70.61152292499737]
このギャップは、幾何学的事前の不足から生じるものではなく、訓練パラダイムの誤った調整から生じるものである、と我々は主張する。
既存のアプローチでは、通常、特徴の結合を示唆し、幾何学的な監督なしに下流のタスクを直接最適化する。
本稿では,下流適応前の構造知覚を明示的に活性化する幾何学的事前学習パラダイムであるGAP-MLLMを提案する。
論文 参考訳(メタデータ) (2026-03-17T12:43:48Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - AffordBot: 3D Fine-grained Embodied Reasoning via Multimodal Large Language Models [20.05010202296243]
エージェントが3Dシーンの各参照余剰要素、その位置、動きタイプ、動き軸について予測する必要がある。
本稿では,MLLM(Multimodal Large Language Models)とCoT(Chere-of-Thought)推論パラダイムを統合した新しいフレームワークであるAffordBotを提案する。
AffordBotは最先端のパフォーマンスを実現し、3Dポイントのクラウド入力とMLLMだけで強力な一般化と物理的根拠を持つ推論を実証する。
論文 参考訳(メタデータ) (2025-11-13T06:43:00Z) - Task-Aware 3D Affordance Segmentation via 2D Guidance and Geometric Refinement [12.260126771415019]
タスク対応型3次元シーンアフォーダンスセグメンテーション(TASA)について紹介する。
TASAは2次元のセマンティックキューと3次元の幾何学的推論を粗い方法で併用する新しい幾何学最適化フレームワークである。
3次元幾何情報を完全に活用するために、局所的な3次元幾何と2次元セマンティック先行情報を統合するために、3次元アベイランス改良モジュールを提案する。
論文 参考訳(メタデータ) (2025-11-12T13:36:37Z) - From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors [54.84863164684646]
既存の視覚言語アクション(VLA)モデルは3Dの現実世界で機能するが、通常は2Dエンコーダ上に構築される。
本研究では,アクションヘッドにリッチな3次元空間トークンを注入する新しいパラダイムであるFALCONを紹介する。
論文 参考訳(メタデータ) (2025-10-20T11:26:45Z) - Reg3D: Reconstructive Geometry Instruction Tuning for 3D Scene Understanding [6.7958985137291235]
Reg3DはReconstructive Geometry Instruction Tuningフレームワークである。
私たちの重要な洞察は、効果的な3D理解には、単に記述するのではなく、基礎となる幾何学的構造を再構築する必要があります。
ScanQA、Scan2Cap、ScanRefer、SQA3Dの実験は、Reg3Dが大幅なパフォーマンス改善を提供することを示した。
論文 参考訳(メタデータ) (2025-09-03T18:36:44Z) - 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation [17.294440057314812]
VLM(Vision-Language Models)は様々な視覚的・言語的タスクにおいて顕著な性能を示した。
人為的な幾何学的手がかりを予め訓練されたVLMに注入するフレームワークであるGeometric Distillationを提案する。
本手法は、自然な画像テキスト入力と互換性を保ちながら、表現を幾何学的に認識するように形成する。
論文 参考訳(メタデータ) (2025-06-11T15:56:59Z) - VL-SAT: Visual-Linguistic Semantics Assisted Training for 3D Semantic
Scene Graph Prediction in Point Cloud [51.063494002003154]
点雲における3次元意味的シーングラフ(DSSG)の予測は、3次元点雲が2次元画像と比較して限られた意味を持つ幾何学的構造のみを捉えているため困難である。
本稿では,3DSSG予測モデルに対して,長い尾とあいまいな意味関係を識別できる視覚言語セマンティックス支援トレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T09:14:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。