論文の概要: Uncertainty-Aware Gaussian Map for Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2605.26503v1
- Date: Tue, 26 May 2026 03:33:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.60548
- Title: Uncertainty-Aware Gaussian Map for Vision-Language Navigation
- Title(参考訳): 視線ナビゲーションのための不確かさを意識したガウスマップ
- Authors: Jianzhe Gao, Rui Liu, Yuxuan Xu, Tongtong Cao, Yingxue Zhang, Zhanguang Zhang, Sida Peng, Yi Yang, Wenguan Wang,
- Abstract要約: Vision-Language Navigation (VLN)は、自然言語の指示に従って3D環境をナビゲートするエージェントを必要とする。
本研究では,3種類の知覚的不確実性(幾何学的,意味的,外見的不確実性)を明示的にモデル化し,エージェントの観察空間に統合し,情報的意思決定を可能にする。
- 参考スコア(独自算出の注目度): 63.97713877754199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Navigation (VLN) requires an agent to navigate 3D environments following natural language instructions. During navigation, existing agents commonly encounter perceptual uncertainty, such as insufficient evidence for reliable grounding or ambiguity in interpreting spatial cues, yet they typically ignore such information when predicting actions. In this work, we explicitly model three forms of perceptual uncertainty (i.e., geometric, semantic, and appearance uncertainty) and integrate them into the agent's observation space to enable informed decision-making. Concretely, our agent first constructs a Semantic Gaussian Map (SGM), composed of differentiable 3D Gaussian primitives initialized from panoramic observations, that encodes both the geometric structure and semantic content of the environment. On top of SGM, geometric uncertainty is estimated through variational perturbations of Gaussian position and scale to assess structural reliability; semantic uncertainty is captured by perturbing Gaussian semantic attributes to reveal ambiguous interpretations; and appearance uncertainty is characterized by Fisher Information, which measures the sensitivity of rendered observations to Gaussian-level variations. These uncertainties are incorporated into SGM, extending it into a unified 3D Value Map, which grounds them as affordances and constraints that support reliable navigation. Comprehensive evaluations across multiple VLN benchmarks show the effectiveness of our agent.
- Abstract(参考訳): Vision-Language Navigation (VLN)は、自然言語の指示に従って3D環境をナビゲートするエージェントを必要とする。
ナビゲーション中、既存のエージェントは、空間的な手がかりを解釈する上で、信頼できる根拠の不十分な証拠や曖昧さなどの知覚的不確実性に遭遇するが、アクションを予測する際には通常そのような情報を無視する。
本研究では,3種類の知覚的不確実性(幾何学的,意味的,外見的不確実性)を明示的にモデル化し,エージェントの観察空間に統合し,情報的意思決定を可能にする。
具体的には、まず、パノラマ観測から初期化された微分可能な3次元ガウスプリミティブからなるセマンティックガウスマップ(SGM)を構築し、環境の幾何学的構造と意味的内容の両方を符号化する。
SGM上では, 幾何的不確実性は, ガウス位置の変動摂動と構造的信頼性を評価する尺度によって推定され, 意味的不確実性はガウス意味属性を摂動して不明瞭な解釈を明らかにすることによって捉えられ, 出現不確実性はガウスレベルの変動に対する反射観測の感度を測定するFisher Informationによって特徴づけられる。
これらの不確実性はSGMに組み込まれ、それらを統合された3Dバリューマップに拡張することで、信頼性の高いナビゲーションをサポートする余裕と制約として利用することができる。
複数のVLNベンチマークの総合的な評価は, エージェントの有効性を示す。
関連論文リスト
- DOC-GS: Dual-Domain Observation and Calibration for Reliable Sparse-View Gaussian Splatting [80.43237927269575]
本稿では,新しい視点からスパースビュー3DGSの再構築について再考する。
我々は、ガウスの原始的信頼性の観測不能性として、コアチャレンジを識別する。
この観測を動機として、レンダリング画像フレームワークにおける統合されたデュアルドメイン観測と幾何学的手法を提案する。
論文 参考訳(メタデータ) (2026-04-08T07:01:24Z) - Improving Semantic Uncertainty Quantification in LVLMs with Semantic Gaussian Processes [60.75226150503949]
本稿では,解答埋め込みの幾何学的構造を解析し,意味的不確実性を定量化するベイズ的枠組みを提案する。
S GPUは、生成した回答を密接なセマンティック空間にマッピングし、セマンティック埋め込みのグラム行列を計算し、セマンティック構成を要約する。
我々は,SGPUがモデルとモダリティをまたいで転送されることを示し,そのスペクトル表現が意味的不確実性の一般的なパターンを捉えていることを示す。
論文 参考訳(メタデータ) (2025-12-16T08:15:24Z) - Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts [80.32933059529135]
TTA(Test-Time Adaptation)メソッドが出現し、推論中にターゲット分布に適応する。
我々は、堅牢なM3ODの両不確実性を共同で最小化するために設計された、最初のTTAフレームワークであるDual Uncertainity Optimization (DUO)を提案する。
並列に,明瞭な意味的手がかりを持つ領域における幾何学的コヒーレンスを保存する意味認識型正規場制約を設計する。
論文 参考訳(メタデータ) (2025-08-28T07:09:21Z) - EvidMTL: Evidential Multi-Task Learning for Uncertainty-Aware Semantic Surface Mapping from Monocular RGB Images [7.069718718698565]
既存のマッピング手法は、しばしば自信過剰なセマンティックな予測や、スパースでノイズの多い深度検知に悩まされる。
深度推定とセマンティックセグメンテーションに明らかな頭部を用いたマルチタスク学習フレームワークであるEvidMTLを紹介する。
本研究では,不確実性を考慮したセマンティックサーフェスマッピングフレームワークであるEvidKimeraを提案する。
論文 参考訳(メタデータ) (2025-03-06T13:56:48Z) - Evidential Semantic Mapping in Off-road Environments with Uncertainty-aware Bayesian Kernel Inference [5.120567378386614]
本稿では,オフロード環境における信頼性を高めることを目的とした,明白なセマンティックマッピングフレームワークを提案する。
セマンティックな不確かさを適応的に処理することにより、提案フレームワークは、これまで見えなかった環境においても、周囲の堅牢な表現を構築する。
論文 参考訳(メタデータ) (2024-03-21T05:13:34Z) - Uncertainty-Aware AB3DMOT by Variational 3D Object Detection [74.8441634948334]
不確実性推定は統計的に正確な予測を提供する効果的なツールである。
本稿では,変分ニューラルネットワークを用いたTANet 3Dオブジェクト検出器を提案し,不確実性のある3Dオブジェクト検出を行う。
論文 参考訳(メタデータ) (2023-02-12T14:30:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。