Fugu-MT 論文翻訳(概要): Bridging the 2D-3D Gap: A Hierarchical Semantic-Geometric Map for Vision Language Navigation

論文の概要: Bridging the 2D-3D Gap: A Hierarchical Semantic-Geometric Map for Vision Language Navigation

arxiv url: http://arxiv.org/abs/2606.00095v1
Date: Mon, 25 May 2026 08:53:21 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 21:34:27.886314
Title: Bridging the 2D-3D Gap: A Hierarchical Semantic-Geometric Map for Vision Language Navigation
Title（参考訳）: 2D-3Dギャップをブリッジする:視覚言語ナビゲーションのための階層的意味幾何学的マップ
Authors: Kailing Li, Tianwen Qian, Lijin Yang, Yuqian Fu, Jingyu Gong, Xiaoling Wang, Liang He,
Abstract要約: Vision-Language Navigation (VLN) は、エンボディエージェントが言語命令に従うことで、見えない環境でターゲットの場所に到達することを可能にする。近年の視覚言語モデル(VLM)の進歩にもかかわらず、重要な意味幾何学的ギャップが残っている。本稿では3次元幾何学情報をVLMと互換性のある構造化表現に変換する階層型意味幾何学マップ(HSGM)を提案する。
参考スコア（独自算出の注目度）: 32.02017382315305
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language Navigation (VLN) enables embodied agents to reach target locations in unseen environments by following language instructions. Despite recent progress with vision-language models (VLMs), a critical semantic-geometric gap remains: while VLMs excel at language and 2D visual understanding, they struggle with 3D spatial reasoning and fail to capture the causal dynamics between actions and spatial transitions, resulting in unreliable navigation, particularly in zero-shot settings. To bridge this gap, we propose a Hierarchical Semantic-Geometric Map (HSGM) that transforms 3D geometric information into a structured representation compatible with VLMs, effectively linking them to the physical world. Specifically, HSGM is represented as a multi-channel top-down map organized into three levels: (1) geometric level that records navigable regions and obstacles, (2) semantic level that represents objects and their relations, and (3) decision level that supports high-level task reasoning and goal selection. During navigation, the VLM acts as a high-level semantic planner, interpreting the spatial layout encoded in the HSGM to select geometrically valid waypoints, while low-level, collision-free movements between waypoints are executed by a classical path-planning algorithm, fully decoupling semantic reasoning from action execution. Additionally, complex instructions are decomposed into subtasks to alleviate the problem of progress forgetting or hallucinating in long-horizon navigation. Extensive experiments on R2R-CE and RxR-CE benchmarks demonstrate that our zero-shot framework achieves state-of-the-art performance and even outperforms several supervised methods. Code is available at https://github.com/Teacher-Tom/HSGM_public.
Abstract（参考訳）: Vision-Language Navigation (VLN) は、エンボディエージェントが言語命令に従うことで、見えない環境でターゲットの場所に到達することを可能にする。視覚言語モデル(VLM)の最近の進歩にもかかわらず、重要な意味幾何学的ギャップは残されている: VLMは言語と2次元の視覚的理解において優れているが、3次元空間推論に苦慮し、行動と空間遷移の間の因果ダイナミクスを捉えることができず、特にゼロショット設定において、信頼性の低いナビゲーションをもたらす。このギャップを埋めるために,3次元幾何学情報をVLMと互換性のある構造化表現に変換する階層型意味幾何学マップ (HSGM) を提案する。具体的には、HSGMは、(1)ナビゲーション可能な領域と障害物を記録する幾何学レベル、(2)オブジェクトとその関係を表す意味レベル、(3)タスク推論とゴール選択をサポートする意思決定レベルという3つのレベルに分けられるマルチチャネルトップダウンマップとして表現される。ナビゲーション中、VLMはハイレベルなセマンティックプランナとして機能し、HSGMで符号化された空間レイアウトを解釈して幾何的に有効なウェイポイントを選択する。さらに、複雑な命令をサブタスクに分解して、長い水平航法において進行を忘れたり幻覚したりする問題を緩和する。 R2R-CEとRxR-CEベンチマークの大規模な実験は、我々のゼロショットフレームワークが最先端のパフォーマンスを達成し、いくつかの教師付き手法よりも優れていることを示している。コードはhttps://github.com/Teacher-Tom/HSGM_public.comから入手できる。

関連論文リスト

SleepWalk: A Three-Tier Benchmark for Stress-Testing Instruction-Guided Vision-Language Navigation [18.453985392979785]
SleepWalk(スリープウォーク)は、単一シーンの3Dワールドにおいて、命令付き軌道予測を評価するためのベンチマークである。 2,472個の3次元環境上での3つのフロンティア・ビジョン・ランゲージ・モデルの評価を行った。
論文参考訳（メタデータ） (2026-05-11T11:20:14Z)
AgentVLN: Towards Agentic Vision-and-Language Navigation [78.739525400071]
VLN (Vision-and-Language Navigation) は、複雑な自然言語命令を、見えない環境での長距離ナビゲーションに接地するために、エンボディエージェントを必要とする。本稿では,エッジコンピューティングプラットフォーム上に展開可能な,新規かつ効率的なナビゲーションフレームワークであるAgentVLNを提案する。
論文参考訳（メタデータ） (2026-03-18T12:43:47Z)
OmniVLN: Omnidirectional 3D Perception and Token-Efficient LLM Reasoning for Visual-Language Navigation across Air and Ground Platforms [33.40889181799252]
言語誘導型エンボディナビゲーションでは、エージェントがオブジェクト参照命令を解釈し、複数の部屋を探索し、参照されたターゲットをローカライズし、それに対する信頼できる動きを実行する必要がある。 OmniVLNは、全方位3次元知覚とトークン効率の高い階層的推論を、空中と地上の両方で組み合わせたゼロショット視覚言語ナビゲーションフレームワークである。実験により、提案した階層インタフェースは空間参照精度を77.27%から93.18%に改善し、マルチルームの乱雑な設定で累積的なプロンプトトークンを61.7%削減し、フラットで最大11.68%のナビゲーション成功率向上を実現した。
論文参考訳（メタデータ） (2026-03-18T04:26:30Z)
Hierarchical Collaborative Fusion for 3D Instance-aware Referring Expression Segmentation [91.2768117730855]
一般化された3D参照式(3D-GRES)は、記述が複数またはゼロのターゲットと一致する場合でも、自然言語に基づいて3Dシーン内のオブジェクトをローカライズする。既存の方法はスパース・ポイント・クラウドにのみ依存しており、きめ細かい説明のためのリッチ・ビジュアル・セマンティクスが欠如している。 HCF-RESは2つの重要なイノベーションを持つマルチモーダルフレームワークである。
論文参考訳（メタデータ） (2026-03-06T13:09:29Z)
3DGSNav: Enhancing Vision-Language Model Reasoning for Object Navigation via Active 3D Gaussian Splatting [12.057873540714098]
3DGSNavは、3D Gaussian Splatting (3DGS)を視覚言語モデル(VLM)の永続メモリとして組み込んで空間推論を強化する新しいフレームワークである。 3DGSNavは環境の3DGS表現を段階的に構築し、フロンティア対応のファーストパーソンビューの軌跡誘導自由視点レンダリングを可能にする。ナビゲーション中、リアルタイムオブジェクト検出器が潜在的なターゲットをフィルタリングし、VLM駆動のアクティブな視点スイッチングがターゲットを再検証する。
論文参考訳（メタデータ） (2026-02-12T16:41:26Z)
Let Language Constrain Geometry: Vision-Language Models as Semantic and Spatial Critics for 3D Generation [34.44214123004662]
本稿では,差別化可能な意味的・空間的批判のための枠組みであるVLM3Dを提案する。我々のコアコントリビューションは、VLMの「Yes or No log-odds」から派生した2言語による批判信号です。 VLM3Dは、VLMの豊かな言語によるセマンティクスと空間の理解を多種多様な3D生成パイプラインに注入する、原則的で一般的な経路を確立している。
論文参考訳（メタデータ） (2025-11-18T09:05:26Z)
Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文参考訳（メタデータ） (2025-05-26T15:28:17Z)
Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2022-02-23T19:06:53Z)
Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。ナビゲーション中に知覚を正確に記憶できるほど区画化されている。また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文参考訳（メタデータ） (2021-03-05T03:41:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。