論文の概要: Object Navigation with Structure-Semantic Reasoning-Based Multi-level Map and Multimodal Decision-Making LLM
- arxiv url: http://arxiv.org/abs/2506.05896v1
- Date: Fri, 06 Jun 2025 09:08:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.396315
- Title: Object Navigation with Structure-Semantic Reasoning-Based Multi-level Map and Multimodal Decision-Making LLM
- Title(参考訳): 構造Semantic Reasoning-based Multi-level Map と Multimodal Decision-Making LLM を用いたオブジェクトナビゲーション
- Authors: Chongshang Yan, Jiaxuan He, Delun Li, Yi Yang, Wenjie Song,
- Abstract要約: 環境属性マップ(EAM)とMLLM階層推論モジュール(MHR)を用いたアクティブオブジェクトナビゲーションフレームワークを提案する。
EAMは、観測された環境をSBERTで推論し、観測されていない環境を拡散で予測することによって構築される。
MHRはEAMにインスパイアされてフロンティア探索決定を行い、長距離シナリオにおける回路軌道を避けて経路効率を向上させる。
- 参考スコア(独自算出の注目度): 18.406869393228813
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The zero-shot object navigation (ZSON) in unknown open-ended environments coupled with semantically novel target often suffers from the significant decline in performance due to the neglect of high-dimensional implicit scene information and the long-range target searching task. To address this, we proposed an active object navigation framework with Environmental Attributes Map (EAM) and MLLM Hierarchical Reasoning module (MHR) to improve its success rate and efficiency. EAM is constructed by reasoning observed environments with SBERT and predicting unobserved ones with Diffusion, utilizing human space regularities that underlie object-room correlations and area adjacencies. MHR is inspired by EAM to perform frontier exploration decision-making, avoiding the circuitous trajectories in long-range scenarios to improve path efficiency. Experimental results demonstrate that the EAM module achieves 64.5\% scene mapping accuracy on MP3D dataset, while the navigation task attains SPLs of 28.4\% and 26.3\% on HM3D and MP3D benchmarks respectively - representing absolute improvements of 21.4\% and 46.0\% over baseline methods.
- Abstract(参考訳): 未知のオープンエンド環境におけるゼロショットオブジェクトナビゲーション(ZSON)とセマンティックに新規なターゲットとの組み合わせは、高次元の暗黙のシーン情報や長距離のターゲット探索タスクを無視するため、性能の著しい低下に悩まされることが多い。
そこで我々は,環境属性マップ(EAM)とMLLM階層推論モジュール(MHR)を用いたアクティブオブジェクトナビゲーションフレームワークを提案し,その成功率と効率を向上した。
EAMは、観測環境をSBERTで推論し、未観測環境を拡散で予測することで構築される。
MHRはEAMにインスパイアされてフロンティア探索決定を行い、長距離シナリオにおける回路軌道を避けて経路効率を向上させる。
実験の結果、EAMモジュールはMP3Dデータセット上で64.5\%のシーンマッピング精度を達成し、ナビゲーションタスクはHM3DとMP3Dベンチマークでそれぞれ28.4\%と26.3\%を達成した。
関連論文リスト
- Diffusion as Reasoning: Enhancing Object Goal Navigation with LLM-Biased Diffusion Model [9.939998139837426]
本稿では,オブジェクトの統計分布パターンを意味マップで学習するために拡散モデルを訓練することにより,ObjectNavタスクの解法を提案する。
また,大域的対象バイアスと局所的LLMバイアス法を提案し,対象オブジェクトをより効果的に生成するために拡散モデルを制約することができる。
未知の領域で生成されたマップに基づいて、エージェントはターゲットの予測位置を目標として設定し、それに向かって移動する。
論文 参考訳(メタデータ) (2024-10-29T08:10:06Z) - Semantic Environment Atlas for Object-Goal Navigation [12.057544558656035]
エンボディエージェントの視覚ナビゲーション能力を高めるために,セマンティック環境アトラス (SEA) を導入した。
SEAは様々な環境からの複数のセマンティックマップを統合し、場所-対象関係の記憶を保持する。
本手法は, 現状よりも12.4%向上した39.0%を達成できるが, 騒音・作動条件下では頑健性も維持できる。
論文 参考訳(メタデータ) (2024-10-05T00:37:15Z) - Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。
我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。
挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文 参考訳(メタデータ) (2024-07-08T12:52:46Z) - Hierarchical Spatial Proximity Reasoning for Vision-and-Language Navigation [1.2473780585666772]
多くのVision-and-Language Navigation (VLN)アルゴリズムは、視覚的常識の欠如と限られた推論能力のために不正確な決定をする傾向がある。
本稿では,階層的空間近接の知識基盤構築を支援するために,階層的空間近接推論(HSPR)手法を提案する。
我々は、REVERIE、SOON、R2R、R4Rなどの公開データセットで実験を行い、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2024-03-18T07:51:22Z) - Right Place, Right Time! Dynamizing Topological Graphs for Embodied Navigation [55.581423861790945]
身体的ナビゲーションのタスクは、探索中にシーンのトポロジカルグラフを構築することを伴うことが多い。
我々は、オブジェクト遷移グラフ(OTG)と呼ばれる静的トポロジカルグラフをダイナマイズするために、構造化されたオブジェクト遷移を導入する。
OTGは、人間の習慣にインスパイアされた構造化経路に従って、ポータブルターゲットをシミュレートする。
論文 参考訳(メタデータ) (2024-03-14T22:33:22Z) - FIT-SLAM -- Fisher Information and Traversability estimation-based
Active SLAM for exploration in 3D environments [1.4474137122906163]
アクティブビジュアルSLAMは、地上ロボットのためのデニッドサブテレイン環境と屋外環境における幅広い応用を見出す。
探索ミッション中に目標選択と目標に向けた経路計画に知覚的考察を取り入れることが不可欠である。
本研究では,無人地上車両(UGV)を対象とした新しい探査手法であるFIT-SLAMを提案する。
論文 参考訳(メタデータ) (2024-01-17T16:46:38Z) - Comparison of Model-Free and Model-Based Learning-Informed Planning for
PointGoal Navigation [10.797100163772482]
我々は,最先端のDeep Reinforcement Learningに基づくアプローチと,ポイントゴールナビゲーション問題に対する部分観測可能なマルコフ決定プロセス(POMDP)の定式化を比較した。
私たちは、SOTA DD-PPOアプローチよりも若干パフォーマンスが劣るが、データが少ないことを示しています。
論文 参考訳(メタデータ) (2022-12-17T05:23:54Z) - Learning Space Partitions for Path Planning [54.475949279050596]
PlaLaMは2次元ナビゲーションタスクにおける既存の経路計画手法よりも優れており、特に難解な局所最適化の存在下では優れている。
これらは高マルチモーダルな実世界のタスクに移行し、コンパイラフェーズでは最大245%、分子設計では最大0.4の強いベースラインを0-1スケールで上回ります。
論文 参考訳(メタデータ) (2021-06-19T18:06:11Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。