論文の概要: GA-VLN: Geometry-Aware BEV Representation for Efficient Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2605.22036v1
- Date: Thu, 21 May 2026 06:20:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.114794
- Title: GA-VLN: Geometry-Aware BEV Representation for Efficient Vision-Language Navigation
- Title(参考訳): GA-VLN:高能率視覚言語ナビゲーションのための幾何学的BEV表現
- Authors: Jiahao Yang, Zihan Wang, Xiangyang Li, Xing Zhu, Yujun Shen, Yinghao Xu, Shuqiang Jiang,
- Abstract要約: 本稿では,3次元のコンパクトな特徴表現であるGeometry-Aware BEV (GA-BEV)を紹介する。
視覚的特徴を3次元空間に投影することで,RGB-D入力からBEV空間マップを構築する。
我々は,BEV空間に事前訓練された3Dファンデーションモデルの特徴を取り入れ,大規模3D再構築作業から学んだ構造的先行を注入する。
- 参考スコア(独自算出の注目度): 75.85672467847631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant progress in Vision-Language Navigation (VLN), existing approaches still rely on dense RGB videos that produce excessive patch tokens and lack explicit spatial structure, resulting in substantial computational overhead and limited spatial reasoning. To address these issues, we introduce the Geometry-Aware BEV (GA-BEV) - a compact, 3D-grounded feature representation that integrates both explicit and implicit geometric cues into multimodal large language model (MLLM) - based navigation systems. We construct BEV spatial maps from RGB-D inputs by projecting visual features into 3D space and aggregating them into an agent-centric layout that preserves geometric consistency while reducing token redundancy. To further enrich geometric understanding, we incorporate features from a pretrained 3D foundation model into the BEV space, injecting structural priors learned from large-scale 3D reconstruction tasks. Together, these complementary cues - explicit depth-based projection and implicit learned priors - yield compact yet spatially expressive representations that substantially improve navigation efficiency and performance. Experiments show that our method achieves state-of-the-art results using only navigation data, without DAgger augmentation or mixed VQA training, demonstrating the robustness and data efficiency of the proposed GA-VLN framework.
- Abstract(参考訳): Vision-Language Navigation (VLN) の大幅な進歩にもかかわらず、既存のアプローチは、過剰なパッチトークンを生成し、空間構造が明確でない高密度なRGBビデオに依存しており、計算オーバーヘッドが大きくなり、空間的推論が限られている。
これらの問題に対処するため,我々は,明示的かつ暗黙的な幾何学的手がかりをMLLM(Multimodal large language model)ベースのナビゲーションシステムに統合した,コンパクトで3次元的な特徴表現であるGeometry-Aware BEV (GA-BEV)を導入する。
我々は3次元空間に視覚的特徴を投影し,トークンの冗長性を低減しつつ幾何的整合性を保ったエージェント中心のレイアウトに集約することで,RGB-D入力からBEV空間マップを構築する。
さらに幾何学的理解を深めるために,BEV空間に事前学習された3次元基礎モデルの特徴を取り入れ,大規模3次元再構成タスクから学習した構造的先行点を注入する。
これらの補完的な手がかり(明示的な深度に基づく投影と暗黙の学習先行)は、ナビゲーション効率と性能を大幅に向上させるコンパクトで空間的に表現的な表現をもたらす。
実験により,DAgger拡張や混合VQAトレーニングを使わずに,ナビゲーションデータのみを用いて最先端の結果が得られ,GA-VLNフレームワークの堅牢性とデータ効率が実証された。
関連論文リスト
- VEGA: Visual Encoder Grounding Alignment for Spatially-Aware Vision-Language-Action Models [55.12929235609365]
現在の視覚言語アクション(VLA)モデルの視覚バックボーンは、主に3次元幾何学的監督を伴わない2次元画像データに事前訓練されている。
既存の暗黙の接地法は、VLA特徴を3D認識基盤モデルと整合させることによって、この問題に部分的に対処する。
DINOv2-FiT3D の空間認識機能と VLA の視覚エンコーダの出力を直接一致させるフレームワーク VEGA を提案する。
論文 参考訳(メタデータ) (2026-05-11T12:44:26Z) - XEmbodied: A Foundation Model with Enhanced Geometric and Physical Cues for Large-Scale Embodied Environments [26.90783926543698]
クラウドパイプラインは、幾何学的推論やドメインセマンティクスに欠ける汎用視覚言語モデル(VLM)に依存している。
我々は,本質的な3次元幾何学的認識を伴うVLMを実現するクラウドサイド基盤モデルであるXEmbodiedを提案する。
XEmbodiedは18の公開ベンチマークで堅牢なパフォーマンスを示しながら、一般的な能力を保っている。
論文 参考訳(メタデータ) (2026-04-20T16:37:16Z) - SpatialFly: Geometry-Guided Representation Alignment for UAV Vision-and-Language Navigation in Urban Environments [49.966170814478915]
UAV VLNのための幾何学誘導空間表現フレームワークを提案する。
明示的な3次元再構成を伴わないRGB観測において、SpatialFlyは幾何学誘導2次元表示アライメント機構を導入する。
実験結果から、SpatialFlyは現状のUAV VLNベースラインを目に見える環境と見えない環境の両方で一貫して上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2026-03-22T03:56:58Z) - GAP-MLLM: Geometry-Aligned Pre-training for Activating 3D Spatial Perception in Multimodal Large Language Models [70.61152292499737]
このギャップは、幾何学的事前の不足から生じるものではなく、訓練パラダイムの誤った調整から生じるものである、と我々は主張する。
既存のアプローチでは、通常、特徴の結合を示唆し、幾何学的な監督なしに下流のタスクを直接最適化する。
本稿では,下流適応前の構造知覚を明示的に活性化する幾何学的事前学習パラダイムであるGAP-MLLMを提案する。
論文 参考訳(メタデータ) (2026-03-17T12:43:48Z) - GLaD: Geometric Latent Distillation for Vision-Language-Action Models [106.53332923530245]
GLaDは、知識蒸留による事前学習中に3次元の幾何学的先行を組み込んだ幾何学的認識型視覚・言語・アクション(VLA)フレームワークである。
GLaDは4つのLIBEROタスクスイートの平均成功率は94.1%で、同じ事前トレーニングデータを使用するUniVLA(92.5%)を上回っている。
論文 参考訳(メタデータ) (2025-12-10T13:07:27Z) - IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction [82.53307702809606]
人間は自然に3次元世界の幾何学的構造と意味的内容を中間次元として知覚する。
本稿では,空間再構成とインスタンスレベルの文脈理解の両面での知識を統合するために,IGGT (InstanceGrounded Geometry Transformer) を提案する。
論文 参考訳(メタデータ) (2025-10-26T14:57:44Z) - 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation [17.294440057314812]
VLM(Vision-Language Models)は様々な視覚的・言語的タスクにおいて顕著な性能を示した。
人為的な幾何学的手がかりを予め訓練されたVLMに注入するフレームワークであるGeometric Distillationを提案する。
本手法は、自然な画像テキスト入力と互換性を保ちながら、表現を幾何学的に認識するように形成する。
論文 参考訳(メタデータ) (2025-06-11T15:56:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。