論文の概要: PSG-Nav: Probabilistic Scene Graph Navigation via Multiverse Decision Making
- arxiv url: http://arxiv.org/abs/2606.01313v1
- Date: Sun, 31 May 2026 16:00:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.575658
- Title: PSG-Nav: Probabilistic Scene Graph Navigation via Multiverse Decision Making
- Title(参考訳): PSG-Nav:多方向決定による確率的シーングラフナビゲーション
- Authors: Rufeng Chen, Yue Chang, Xiaqiang Tang, Hechang Chen, Sihong Xie,
- Abstract要約: オープン語彙ナビゲーションは、意味的曖昧さやモデルエラーに起因する認識の不確実性を管理するために、エンボディエージェントを必要とする。
本稿では,認識の不確実性を考慮した3次元確率的シーングラフを構築するための確率的シーングラフナビゲーション(PSG-Nav)を提案する。
Evidential Experience Calibratorも導入し,過去の成功と失敗の記憶を相互に検証することで,オンラインの生涯適応を可能にする。
- 参考スコア(独自算出の注目度): 21.851142332572845
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-vocabulary navigation requires embodied agents to manage significant perception uncertainty stemming from semantic ambiguity and model errors. However, most existing works settle for local optimal deterministic approaches, depriving complex navigation decision-making over multiple composite possibilities that are critical for globally better solutions. In this paper, we propose Probabilistic Scene Graph Navigation (PSG-Nav), which constructs a 3D Probabilistic Scene Graph that uses full semantic categorical distributions to account for perception uncertainty. To efficiently use the local distributions to compose and reason about the optimal navigation landmarks, we propose Multiverse Decision to sample multiple most likely world settings from the joint distribution, and evaluate navigation landmarks based on the compatibility between landmarks and multiverses. To mitigate false positives due to epistemic uncertainty in open-vocabulary navigation, we introduce the Evidential Experience Calibrator, which enables online lifelong adaptation by cross-validating detections against memories of past successes and failures. Extensive experiments on widely-used benchmarks MP3D, HM3D, and HSSD demonstrate that PSG-Nav establishes new state-of-the-art results, achieving Success Rates of 66.1%, 44.8%, and 67.9%, respectively. Code is available at: https://psg-nav.github.io/
- Abstract(参考訳): オープンボキャブラリナビゲーションは、意味的曖昧さとモデルエラーに起因する重要な認識の不確実性を管理するために、エンボディエージェントを必要とする。
しかし、既存のほとんどの研究は局所最適決定論的アプローチに落ち着き、グローバルなより良いソリューションに不可欠な複数の複合可能性よりも複雑なナビゲーション決定を排除している。
本稿では,認識の不確実性を考慮するために,完全なセマンティックなカテゴリ分布を用いた3次元確率的シーングラフを構築する,確率的シーングラフナビゲーション(PSG-Nav)を提案する。
局所分布を効率的に利用して最適なナビゲーションランドマークの合成と推論を行うため,共同分布から多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多種多
オープンボキャブラリナビゲーションにおける認識的不確実性による偽陽性を緩和するため,過去の成功や失敗の記憶に対する検出を相互に検証することで,オンラインの生涯適応を可能にするEvidential Experience Calibratorを紹介した。
広く使われているベンチマークMP3D、HM3D、HSSDの広範な実験は、PSG-Navがそれぞれ66.1%、44.8%、67.9%の成功率を達成し、新しい最先端の結果を確立することを示した。
コードは、https://psg-nav.github.io/で入手できる。
関連論文リスト
- Stop Wandering: Efficient Vision-Language Navigation via Metacognitive Reasoning [12.880792990007244]
トレーニングフリーのビジョンランゲージナビゲーション(VLN)エージェントは、指示に従って3D環境を探索することができる。
既存のアプローチは、強欲なフロンティア選択と受動的空間記憶に依存している。
本稿では,空間記憶,履歴認識計画,反射補正を統合したメタ認知ナビゲーションエージェントMetaNavを提案する。
論文 参考訳(メタデータ) (2026-04-02T17:58:08Z) - Beyond Matching to Tiles: Bridging Unaligned Aerial and Satellite Views for Vision-Only UAV Navigation [51.286599397552756]
本稿では,UAVの絶対位置と近距離からの進路を共同で予測する視覚駆動型クロスビューナビゲーション手法であるBering-UAVを提案する。
我々はまた、クロスビューのローカライゼーションとナビゲーションを評価するベンチマークである Bearing-UAV-90k も提示する。
論文 参考訳(メタデータ) (2026-03-23T16:17:39Z) - ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation [53.95797153529148]
身体的エージェントは、主に部分的な自我中心の観測に依存するため、効率的なナビゲーションに苦しむことが多い。
本稿では,マルチモーダル大規模言語モデル(MLLM)と決定論的プランナを結合することにより,この理由に基づくパラダイムを運用する,人間にインスパイアされたフレームワークであるReasonNaviを紹介する。
論文 参考訳(メタデータ) (2026-01-26T19:09:20Z) - MSGNav: Unleashing the Power of Multi-modal 3D Scene Graph for Zero-Shot Embodied Navigation [42.4892002514681]
現実世界のデプロイメントには、オープンな語彙の一般化とトレーニングのオーバーヘッドの低減が必要だ。
明示的な3Dシーングラフを構築する既存のゼロショット法は、リッチな視覚的観察をテキストのみの関係に圧縮する。
テキスト関係を置き換えることで視覚的手がかりを保存できるM3DSG(Multi-modal 3D Scene Graph)を導入する。
論文 参考訳(メタデータ) (2025-11-13T14:51:21Z) - GaussNav: Gaussian Splatting for Visual Navigation [92.13664084464514]
インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。
視覚ナビゲーションのためのガウススティング(GaussNav)であるIINの新しいフレームワークを提案し、3次元ガウススティング(DGS)に基づく新しい地図表現を構築した。
当社のGaussNavフレームワークは,Habitat-Matterport 3D(HM3D)データセットにおいて,SPL(Path Length)によるSuccessの重み付けを0.347から0.578に増加させ,大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-03-18T09:56:48Z) - Hierarchical Spatial Proximity Reasoning for Vision-and-Language Navigation [1.2473780585666772]
多くのVision-and-Language Navigation (VLN)アルゴリズムは、視覚的常識の欠如と限られた推論能力のために不正確な決定をする傾向がある。
本稿では,階層的空間近接の知識基盤構築を支援するために,階層的空間近接推論(HSPR)手法を提案する。
我々は、REVERIE、SOON、R2R、R4Rなどの公開データセットで実験を行い、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-03-18T07:51:22Z) - PDC-Net+: Enhanced Probabilistic Dense Correspondence Network [161.76275845530964]
高度確率密度対応ネットワーク(PDC-Net+)は、精度の高い高密度対応を推定できる。
我々は、堅牢で一般化可能な不確実性予測に適したアーキテクチャと強化されたトレーニング戦略を開発する。
提案手法は,複数の挑戦的幾何マッチングと光学的フローデータセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-28T17:56:41Z) - Multimodal Trajectory Prediction via Topological Invariance for
Navigation at Uncontrolled Intersections [45.508973373913946]
道路交差点において,信号機や信号機を使わずに複数の非通信的合理的エージェント間の分散ナビゲーションに着目した。
我々の重要な洞察は、交差点の幾何学的構造と、効率的に動くエージェントのインセンティブが衝突を避け(合理性)、起こりうる行動の空間を減少させるということである。
マルチエージェント交差点シーンにおける高次モードの軌道表現を再構成するデータ駆動型軌道予測機構であるMTPを設計する。
論文 参考訳(メタデータ) (2020-11-08T02:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。