Fugu-MT 論文翻訳(概要): History-Augmented Vision-Language Models for Frontier-Based Zero-Shot Object Navigation

論文の概要: History-Augmented Vision-Language Models for Frontier-Based Zero-Shot Object Navigation

arxiv url: http://arxiv.org/abs/2506.16623v1
Date: Thu, 19 Jun 2025 21:50:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 19:00:05.269116
Title: History-Augmented Vision-Language Models for Frontier-Based Zero-Shot Object Navigation
Title（参考訳）: フロンティアベースゼロショットオブジェクトナビゲーションのための履歴拡張型ビジョンランゲージモデル
Authors: Mobin Habibpour, Fatemeh Afghah,
Abstract要約: 本稿では、動的履歴認識プロンプトの利用を先駆する新しいゼロショットObjectNavフレームワークを提案する。私たちの中心となるイノベーションは、VLMにアクション履歴コンテキストを提供し、ナビゲーションアクションのセマンティックガイダンススコアを生成することです。また、検出対象に対する最終アプローチを洗練するためのVLM支援のウェイポイント生成機構も導入する。
参考スコア（独自算出の注目度）: 5.343932820859596
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Object Goal Navigation (ObjectNav) challenges robots to find objects in unseen environments, demanding sophisticated reasoning. While Vision-Language Models (VLMs) show potential, current ObjectNav methods often employ them superficially, primarily using vision-language embeddings for object-scene similarity checks rather than leveraging deeper reasoning. This limits contextual understanding and leads to practical issues like repetitive navigation behaviors. This paper introduces a novel zero-shot ObjectNav framework that pioneers the use of dynamic, history-aware prompting to more deeply integrate VLM reasoning into frontier-based exploration. Our core innovation lies in providing the VLM with action history context, enabling it to generate semantic guidance scores for navigation actions while actively avoiding decision loops. We also introduce a VLM-assisted waypoint generation mechanism for refining the final approach to detected objects. Evaluated on the HM3D dataset within Habitat, our approach achieves a 46% Success Rate (SR) and 24.8% Success weighted by Path Length (SPL). These results are comparable to state-of-the-art zero-shot methods, demonstrating the significant potential of our history-augmented VLM prompting strategy for more robust and context-aware robotic navigation.
Abstract（参考訳）: Object Goal Navigation (ObjectNav)は、ロボットが見えない環境でオブジェクトを見つけるのに挑戦し、洗練された推論を要求する。 VLM(Vision-Language Models)は潜在的な可能性を示しているが、現在のObjectNavメソッドでは、より深い推論を活用するのではなく、主にオブジェクトシーンの類似性チェックに視覚言語を組み込む。これは文脈的理解を制限し、反復的なナビゲーション動作のような実践的な問題につながる。本稿では,VLM推論をより深くフロンティアベースの探索に組み込むために,動的かつ履歴認識の活用を開拓する新しいゼロショットObjectNavフレームワークを提案する。我々の中心となるイノベーションは、VLMに行動履歴のコンテキストを提供することであり、意思決定ループを積極的に回避しながら、ナビゲーションアクションのセマンティックガイダンススコアを生成することができます。また、検出対象に対する最終アプローチを洗練するためのVLM支援のウェイポイント生成機構も導入する。 Habitat内のHM3Dデータセットを評価したところ、我々のアプローチは46%の成功率(SR)と24.8%の成功率(SPL)を達成した。これらの結果は最先端のゼロショット手法に匹敵するものであり、より堅牢でコンテキスト対応のロボットナビゲーションの戦略を推し進める歴史強化VLMの有意義な可能性を実証している。

関連論文リスト

SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models [10.671262416557704]
Vision Foundation Models (VFM) は視覚的理解と推論に強力な機能を提供する。本稿では,VFMの知覚的強度をモデルベースプランナと統合したゼロショットオブジェクトゴールナビゲーションフレームワークを提案する。本研究では,Habitatシミュレータを用いてHM3Dデータセットに対するアプローチを評価し,提案手法が最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-06-04T03:04:54Z)
TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。 MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文参考訳（メタデータ） (2024-11-25T14:27:55Z)
Navigation with VLM framework: Go to Any Language [2.9869976373921916]
視覚的大言語モデル(VLM)は、言語と視覚データの両方を推論する際、顕著な能力を示した。このフレームワークは、機器レベルのVLMを利用して、エージェントがオープンシーンで特定の言語目標や非特定の言語目標に向かって移動できるようにする。本研究では,Habitat シミュレータ内の Matterport 3D (MP3D) , Habitat Matterport 3D (HM3D) および Gibson データセットから,詳細な環境下での NavVLM の評価を行った。
論文参考訳（メタデータ） (2024-09-18T02:29:00Z)
Cognitive Planning for Object Goal Navigation using Generative AI Models [0.979851640406258]
本稿では,効率的な探索戦略を生成するオブジェクトゴールナビゲーション問題を解決するための新しいフレームワークを提案する。我々のアプローチは,Large Language Models (LLMs) とLarge Vision-Language Models (LVLMs) を活用することで,ロボットが慣れない環境をナビゲートすることを可能にする。
論文参考訳（メタデータ） (2024-03-30T10:54:59Z)
How To Not Train Your Dragon: Training-free Embodied Object Goal Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文参考訳（メタデータ） (2023-05-26T13:38:33Z)
Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文参考訳（メタデータ） (2023-03-06T20:19:19Z)
ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object Navigation [75.13546386761153]
我々は,新しいゼロショットオブジェクトナビゲーション手法であるExploration with Soft Commonsense constraints (ESC)を提案する。 ESCは、事前訓練されたモデルのコモンセンス知識を、ナビゲーション経験のないオープンワールドオブジェクトナビゲーションに転送する。 MP3D, HM3D, RoboTHORのベンチマーク実験により, ESC法はベースラインよりも大幅に改善されていることがわかった。
論文参考訳（メタデータ） (2023-01-30T18:37:32Z)
SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文参考訳（メタデータ） (2021-03-31T15:01:04Z)
Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文参考訳（メタデータ） (2020-07-01T17:52:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。