論文の概要: RATE-Nav: Region-Aware Termination Enhancement for Zero-shot Object Navigation with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.02354v1
- Date: Tue, 03 Jun 2025 01:15:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.187233
- Title: RATE-Nav: Region-Aware Termination Enhancement for Zero-shot Object Navigation with Vision-Language Models
- Title(参考訳): RATE-Nav:ビジョン言語モデルを用いたゼロショットオブジェクトナビゲーションのための領域認識終端強調
- Authors: Junjie Li, Nan Zhang, Xiaoyang Qu, Kai Lu, Guokuan Li, Jiguang Wan, Jianzong Wang,
- Abstract要約: 批判的だが調査の不十分な方向は、これらの課題を克服するための探索の時間的な終了である。
RATE-Nav, Region-Aware Termination-Enhanced Methodを提案する。
幾何予測領域分割アルゴリズムと探索率計算のための領域ベース探索推定アルゴリズムを含む。
67.8%の成功率、31.3%のSPLをHM3Dデータセットで達成している。
- 参考スコア(独自算出の注目度): 36.39389224168802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object Navigation (ObjectNav) is a fundamental task in embodied artificial intelligence. Although significant progress has been made in semantic map construction and target direction prediction in current research, redundant exploration and exploration failures remain inevitable. A critical but underexplored direction is the timely termination of exploration to overcome these challenges. We observe a diminishing marginal effect between exploration steps and exploration rates and analyze the cost-benefit relationship of exploration. Inspired by this, we propose RATE-Nav, a Region-Aware Termination-Enhanced method. It includes a geometric predictive region segmentation algorithm and region-Based exploration estimation algorithm for exploration rate calculation. By leveraging the visual question answering capabilities of visual language models (VLMs) and exploration rates enables efficient termination.RATE-Nav achieves a success rate of 67.8% and an SPL of 31.3% on the HM3D dataset. And on the more challenging MP3D dataset, RATE-Nav shows approximately 10% improvement over previous zero-shot methods.
- Abstract(参考訳): Object Navigation(ObjectNav)は、人工知能の具体化における基本的なタスクである。
セマンティックマップの構築と現在の研究における目標方向予測に大きな進歩があったが、冗長な探査と探査の失敗は避けられないままである。
批判的だが調査の不十分な方向は、これらの課題を克服するための探索の時間的な終了である。
探索段階と探査速度の間の限界効果の減少を観察し,探索の費用対効果の関係を分析する。
そこで我々はRATE-Navを提案する。
幾何予測領域分割アルゴリズムと探索率計算のための領域ベース探索推定アルゴリズムを含む。
視覚言語モデル(VLM)の視覚的質問応答能力と探索率を利用することで、効率的な終了率を実現している。RATE-Navは67.8%、SPLは31.3%の成功を収めている。
さらに、より困難なMP3Dデータセットでは、RATE-Navは以前のゼロショットメソッドよりも約10%改善されている。
関連論文リスト
- ForesightNav: Learning Scene Imagination for Efficient Exploration [57.49417653636244]
人間の想像力と推論に触発された新しい探索戦略であるForesightNavを提案する。
提案手法は,ロボットエージェントに,未探索領域の占有状況や意味的詳細などの文脈情報を予測する能力を備える。
本研究では,Structured3Dデータセットを用いた想像力に基づくアプローチの有効性を検証し,シーン形状の予測において,正確な占有率予測と優れた性能を示す。
論文 参考訳(メタデータ) (2025-04-22T17:38:38Z) - FrontierNet: Learning Visual Cues to Explore [54.8265603996238]
この研究は、3Dマップからゴールポーズを抽出する制限に対処するため、効率的な自律探索に2Dビジュアルキューを活用することを目的としている。
本稿では、FrontierNetをコアコンポーネントとする、視覚のみのフロンティアベースの探索システムを提案する。
提案手法は,既存の3次元目標抽出手法に代わるもので,早期探索効率の15%向上を実現している。
論文 参考訳(メタデータ) (2025-01-08T16:25:32Z) - IPPON: Common Sense Guided Informative Path Planning for Object Goal Navigation [33.979481250363584]
本稿では,新しい情報経路計画法と3次元オブジェクト確率マッピング手法を提案する。
マッピングモジュールはセマンティックセグメンテーションとベイズフィルタによって関心対象の確率を計算する。
我々のプランナーはゼロショットアプローチに従っているが、2023年のHabitat ObjectNav Challengeにおいて、Path Length(SPL)とSoft SPLが重み付けしたSuccessによって測定された最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-25T17:11:33Z) - VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language
Model [28.79971953667143]
VoroNavは、リアルタイムで構築されたセマンティックマップから探索経路と計画ノードを抽出する意味探索フレームワークである。
トポロジカルおよびセマンティック情報を活用することで、VoroNavは大きな言語モデルで容易に解釈できるパスとイメージのテキストベースの記述を設計する。
論文 参考訳(メタデータ) (2024-01-05T08:05:07Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。