論文の概要: SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models
- arxiv url: http://arxiv.org/abs/2506.03516v1
- Date: Wed, 04 Jun 2025 03:04:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.120609
- Title: SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models
- Title(参考訳): SemNav:ビジョンファウンデーションモデルを用いたゼロショットオブジェクトゴールナビゲーションのためのモデルベースプランナ
- Authors: Arnab Debnath, Gregory J. Stein, Jana Kosecka,
- Abstract要約: Vision Foundation Models (VFM) は視覚的理解と推論に強力な機能を提供する。
本稿では,VFMの知覚的強度をモデルベースプランナと統合したゼロショットオブジェクトゴールナビゲーションフレームワークを提案する。
本研究では,Habitatシミュレータを用いてHM3Dデータセットに対するアプローチを評価し,提案手法が最先端性能を実現することを示す。
- 参考スコア(独自算出の注目度): 10.671262416557704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object goal navigation is a fundamental task in embodied AI, where an agent is instructed to locate a target object in an unexplored environment. Traditional learning-based methods rely heavily on large-scale annotated data or require extensive interaction with the environment in a reinforcement learning setting, often failing to generalize to novel environments and limiting scalability. To overcome these challenges, we explore a zero-shot setting where the agent operates without task-specific training, enabling more scalable and adaptable solution. Recent advances in Vision Foundation Models (VFMs) offer powerful capabilities for visual understanding and reasoning, making them ideal for agents to comprehend scenes, identify relevant regions, and infer the likely locations of objects. In this work, we present a zero-shot object goal navigation framework that integrates the perceptual strength of VFMs with a model-based planner that is capable of long-horizon decision making through frontier exploration. We evaluate our approach on the HM3D dataset using the Habitat simulator and demonstrate that our method achieves state-of-the-art performance in terms of success weighted by path length for zero-shot object goal navigation.
- Abstract(参考訳): オブジェクトゴールナビゲーションは、エージェントが探索されていない環境で対象物を見つけるように指示される、AIの具体化における基本的なタスクである。
従来の学習ベースの手法は、大規模なアノテートされたデータに大きく依存するか、強化学習環境で環境との広範な相互作用を必要とし、しばしば新しい環境への一般化やスケーラビリティの制限に失敗する。
これらの課題を克服するために、エージェントがタスク固有のトレーニングなしで動作し、よりスケーラブルで適応可能なソリューションを可能にするゼロショット設定を探索する。
視覚基礎モデル(VFM)の最近の進歩は、視覚的理解と推論のための強力な能力を提供し、エージェントがシーンを理解し、関連する領域を特定し、オブジェクトの潜在的な位置を推測するのに理想的である。
本研究では,VFMの知覚的強度を,フロンティア探索による長期的意思決定が可能なモデルベースプランナと統合したゼロショット目標ナビゲーションフレームワークを提案する。
本研究では,Habitatシミュレータを用いたHM3Dデータセットへのアプローチを評価し,ゼロショット目標ナビゲーションにおけるパス長重み付けによる精度向上を実証する。
関連論文リスト
- Cognitive Planning for Object Goal Navigation using Generative AI Models [0.979851640406258]
本稿では,効率的な探索戦略を生成するオブジェクトゴールナビゲーション問題を解決するための新しいフレームワークを提案する。
我々のアプローチは,Large Language Models (LLMs) とLarge Vision-Language Models (LVLMs) を活用することで,ロボットが慣れない環境をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-03-30T10:54:59Z) - Probable Object Location (POLo) Score Estimation for Efficient Object
Goal Navigation [15.623723522165731]
本稿では,POLo(Probable Object Location)スコアを中心とした新しいフレームワークを提案する。
計算集約的なPOLoスコアを近似するためにトレーニングされたニューラルネットワークであるPOLoNetを導入することで、フレームワークの実用性をさらに向上する。
OVMM 2023チャレンジの第1フェーズを含む実験では,POLoNetを組み込んだエージェントが,幅広いベースライン手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2023-11-14T08:45:32Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - Landmark Policy Optimization for Object Navigation Task [77.34726150561087]
本研究は,未確認環境において,与えられたセマンティックカテゴリに関連する最も近いオブジェクトにナビゲートするオブジェクトゴールナビゲーションタスクについて研究する。
最近の研究は、エンドツーエンドの強化学習アプローチとモジュールシステムの両方において大きな成果を上げていますが、堅牢で最適なものにするには大きな前進が必要です。
本稿では,これらのランドマークを抽出する手法として,標準的なタスクの定式化とランドマークとしての付加的な地域知識を取り入れた階層的手法を提案する。
論文 参考訳(メタデータ) (2021-09-17T12:28:46Z) - Exploiting Scene-specific Features for Object Goal Navigation [9.806910643086043]
ナビゲーションモデルのトレーニングを高速化するデータセットを新たに導入する。
提案したデータセットは,オンライン構築マップを合理的な時間で活用しないモデルのトレーニングを可能にする。
本研究では,SMTSCモデルを提案する。
論文 参考訳(メタデータ) (2020-08-21T10:16:01Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。