論文の概要: VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2605.10485v1
- Date: Mon, 11 May 2026 12:44:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.817875
- Title: VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models
- Title(参考訳): VEGA:空間認識型視覚言語行動モデルのための視覚エンコーダグラウンドアライメント
- Authors: Hao Wang, Xiaobao Wei, Jingyang He, Chengyu Bai, Chun-Kai Fan, Jiajun Cao, Jintao Chen, Ying Li, Shanyu Rong, Ming Lu, Xiaozhu Ju, Jian Tang, Shanghang Zhang,
- Abstract要約: 現在の視覚言語アクション(VLA)モデルの視覚バックボーンは、主に3次元幾何学的監督を伴わない2次元画像データに事前訓練されている。
既存の暗黙の接地法は、VLA特徴を3D認識基盤モデルと整合させることによって、この問題に部分的に対処する。
DINOv2-FiT3D の空間認識機能と VLA の視覚エンコーダの出力を直接一致させるフレームワーク VEGA を提案する。
- 参考スコア(独自算出の注目度): 55.12929235609365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Precise spatial reasoning is fundamental to robotic manipulation, yet the visual backbones of current vision-language-action (VLA) models are predominantly pretrained on 2D image data without explicit 3D geometric supervision, resulting in representations that lack accurate spatial awareness. Existing implicit spatial grounding methods partially address this by aligning VLA features with those of 3D-aware foundation models, but they rely on empirical layer search and perform alignment on LLM-level visual tokens where spatial structure has already been entangled with linguistic semantics, limiting both generalizability and geometric interpretability. We propose VEGA (Visual Encoder Grounding Alignment), a simple yet effective framework that directly aligns the output of the VLA's visual encoder with spatially-aware features from DINOv2-FiT3D, a DINOv2 model fine-tuned with multi-view consistent 3D Gaussian Splatting supervision. By performing alignment at the visual encoder output level, VEGA grounds spatial awareness before any linguistic entanglement occurs, offering a more interpretable and principled alignment target. The alignment is implemented via a lightweight projector trained with a cosine similarity loss alongside the standard action prediction objective, and is discarded at inference time, introducing no additional computational overhead. Extensive experiments on simulation benchmark and real-world manipulation tasks demonstrate that VEGA consistently outperforms existing implicit spatial grounding baselines, establishing a new state-of-the-art among implicit spatial grounding methods for VLA models.
- Abstract(参考訳): 精密な空間推論はロボット操作の基本であるが、現在の視覚言語アクション(VLA)モデルの視覚的バックボーンは、明示的な3次元幾何学的監督なしに2次元画像データに事前訓練されているため、正確な空間認識が欠如している。
既存の暗黙的空間的接地法は、VLA特徴を3D認識基盤モデルのものと整合させることによって部分的にこの問題に対処するが、それらは経験的な層探索に依存し、空間構造がすでに意味論的に絡まっており、一般化可能性と幾何学的解釈可能性の両方に制限されているLLMレベルの視覚的トークンにアライメントする。
VEGA(Visual Encoder Grounding Alignment)は,VLAの視覚エンコーダの出力をDINOv2-FiT3Dの空間的特徴と直列に整合させる,シンプルで効果的なフレームワークである。
ビジュアルエンコーダ出力レベルでアライメントを行うことにより、VEGAは言語的な絡み合いが起こる前に空間的認識を基盤とし、より解釈可能で原則化されたアライメントターゲットを提供する。
このアライメントは、標準アクション予測目標と並行してコサイン類似性損失を訓練した軽量プロジェクタを介して実装され、推論時に破棄され、追加の計算オーバーヘッドは発生しない。
シミュレーションベンチマークと実世界の操作タスクに関する大規模な実験は、VEGAが既存の暗黙の空間接地ベースラインを一貫して上回り、VLAモデルのための暗黙の空間接地メソッドの中で新たな最先端技術を確立していることを示している。
関連論文リスト
- Uncovering and Shaping the Latent Representation of 3D Scene Topology in Vision-Language Models [9.722829662835233]
現代の視覚言語モデル (VLM) には3次元シーンの潜在的トポロジマップが存在することを示す。
この空間部分空間をクロスシーン線形特徴抽出により分離することにより,モデルの空間出力を因果的に制御するクリーン空間部分空間を抽出する。
この潜在表現を数学的に形成し、シーンの3次元ガウス-核グラフのラプラシア固有写像との対応性を証明する。
論文 参考訳(メタデータ) (2026-05-08T02:32:27Z) - SpatialFly: Geometry-Guided Representation Alignment for UAV Vision-and-Language Navigation in Urban Environments [49.966170814478915]
UAV VLNのための幾何学誘導空間表現フレームワークを提案する。
明示的な3次元再構成を伴わないRGB観測において、SpatialFlyは幾何学誘導2次元表示アライメント機構を導入する。
実験結果から、SpatialFlyは現状のUAV VLNベースラインを目に見える環境と見えない環境の両方で一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2026-03-22T03:56:58Z) - Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding [50.098085774845195]
本稿では,大規模生成モデルにおいて暗黙の空間的先行性を活用することで,パラダイムシフトを提案する。
GeneEGA-3D (Video Extracted Generative Awareness) は,事前学習した映像拡散モデルを潜在世界シミュレータとして再利用するプラグイン・アンド・プレイ・フレームワークである。
論文 参考訳(メタデータ) (2026-03-19T17:59:58Z) - Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - Let Language Constrain Geometry: Vision-Language Models as Semantic and Spatial Critics for 3D Generation [34.44214123004662]
本稿では,差別化可能な意味的・空間的批判のための枠組みであるVLM3Dを提案する。
我々のコアコントリビューションは、VLMの「Yes or No log-odds」から派生した2言語による批判信号です。
VLM3Dは、VLMの豊かな言語によるセマンティクスと空間の理解を多種多様な3D生成パイプラインに注入する、原則的で一般的な経路を確立している。
論文 参考訳(メタデータ) (2025-11-18T09:05:26Z) - From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors [54.84863164684646]
既存の視覚言語アクション(VLA)モデルは3Dの現実世界で機能するが、通常は2Dエンコーダ上に構築される。
本研究では,アクションヘッドにリッチな3次元空間トークンを注入する新しいパラダイムであるFALCONを紹介する。
論文 参考訳(メタデータ) (2025-10-20T11:26:45Z) - Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。