論文の概要: FOM-Nav: Frontier-Object Maps for Object Goal Navigation
- arxiv url: http://arxiv.org/abs/2512.01009v1
- Date: Sun, 30 Nov 2025 18:16:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.537381
- Title: FOM-Nav: Frontier-Object Maps for Object Goal Navigation
- Title(参考訳): FOM-Nav: オブジェクトゴールナビゲーションのためのフロンティアオブジェクトマップ
- Authors: Thomas Chabal, Shizhe Chen, Jean Ponce, Cordelia Schmid,
- Abstract要約: FOM-Navはフロンティアオブジェクトマップと視覚言語モデルによる探索効率を高めるフレームワークである。
FOM-Navをトレーニングするために,実環境から大規模ナビゲーションデータセットを自動構築する。
FOM-NavはMP3DとHM3Dのベンチマーク、特にナビゲーション効率の指標SPLで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 65.76906445210112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the Object Goal Navigation problem, where a robot must efficiently find a target object in an unknown environment. Existing implicit memory-based methods struggle with long-term memory retention and planning, while explicit map-based approaches lack rich semantic information. To address these challenges, we propose FOM-Nav, a modular framework that enhances exploration efficiency through Frontier-Object Maps and vision-language models. Our Frontier-Object Maps are built online and jointly encode spatial frontiers and fine-grained object information. Using this representation, a vision-language model performs multimodal scene understanding and high-level goal prediction, which is executed by a low-level planner for efficient trajectory generation. To train FOM-Nav, we automatically construct large-scale navigation datasets from real-world scanned environments. Extensive experiments validate the effectiveness of our model design and constructed dataset. FOM-Nav achieves state-of-the-art performance on the MP3D and HM3D benchmarks, particularly in navigation efficiency metric SPL, and yields promising results on a real robot.
- Abstract(参考訳): 本稿では,ロボットが未知の環境で対象物を効率的に見つけるという,目標目標ナビゲーションの問題に対処する。
既存の暗黙的なメモリベースの手法は長期記憶の保持と計画に苦慮する一方で、明示的なマップベースのアプローチには豊富な意味情報がない。
これらの課題に対処するために,フロンティアオブジェクトマップと視覚言語モデルによる探索効率を高めるモジュール型フレームワークFOM-Navを提案する。
私たちのフロンティアオブジェクトマップはオンラインで構築され、空間フロンティアと細かなオブジェクト情報を共同でエンコードします。
この表現を用いて、視覚言語モデルはマルチモーダルシーン理解と高レベル目標予測を行い、低レベルプランナーによって実行され、効率的な軌道生成を行う。
FOM-Navをトレーニングするために,実環境から大規模ナビゲーションデータセットを自動構築する。
大規模な実験により、モデル設計と構築されたデータセットの有効性が検証された。
FOM-NavはMP3DとHM3Dのベンチマーク、特にナビゲーション効率の指標SPLで最先端のパフォーマンスを達成し、実際のロボットで有望な結果を得る。
関連論文リスト
- History-Augmented Vision-Language Models for Frontier-Based Zero-Shot Object Navigation [5.343932820859596]
本稿では、動的履歴認識プロンプトの利用を先駆する新しいゼロショットObjectNavフレームワークを提案する。
私たちの中心となるイノベーションは、VLMにアクション履歴コンテキストを提供し、ナビゲーションアクションのセマンティックガイダンススコアを生成することです。
また、検出対象に対する最終アプローチを洗練するためのVLM支援のウェイポイント生成機構も導入する。
論文 参考訳(メタデータ) (2025-06-19T21:50:16Z) - TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。
MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文 参考訳(メタデータ) (2024-11-25T14:27:55Z) - HM3D-OVON: A Dataset and Benchmark for Open-Vocabulary Object Goal Navigation [39.54854283833085]
Habitat-Matterport 3D Open Vocabulary Object Goal Navigation データセット(HM3D-OVON)を提案する。
HM3D-OVONは、379の異なるカテゴリにわたる15k以上の注釈付きオブジェクトのインスタンスを組み込んでいる。
我々は,HM3D-OVONを用いて,オープン語彙のObjectNavエージェントを訓練し,高い性能を実現し,最先端のObjectNavアプローチよりもローカライゼーションやアクティベーションノイズに頑健であることを確認した。
論文 参考訳(メタデータ) (2024-09-22T02:12:29Z) - VLFM: Vision-Language Frontier Maps for Zero-Shot Semantic Navigation [36.31724466541213]
ゼロショットナビゲーションアプローチであるビジョンランゲージフロンティアマップ(VLFM)を導入する。
VLFMは人間の推論にインスパイアされ、新しい環境における見えないセマンティックなオブジェクトにナビゲートするように設計されている。
我々は,ギブソン,ハビタット・マテルポート3D (HM3D) およびマターポート3D (MP3D) のシミュレータを用いて,写真実写環境における VLFM の評価を行った。
論文 参考訳(メタデータ) (2023-12-06T04:02:28Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - PEANUT: Predicting and Navigating to Unseen Targets [18.87376347895365]
新しい環境における効率的なObjectGoalナビゲーション(ObjectNav)は、環境レイアウトにおける空間的および意味的規則性を理解する必要がある。
不完全なセマンティックマップから観測対象の位置を予測し,これらの規則性を学習する手法を提案する。
我々の予測モデルは軽量であり、比較的少量の受動的収集データを用いて教師付きで訓練することができる。
論文 参考訳(メタデータ) (2022-12-05T18:58:58Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。