Fugu-MT 論文翻訳(概要): OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models

論文の概要: OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models

arxiv url: http://arxiv.org/abs/2402.10670v1
Date: Fri, 16 Feb 2024 13:21:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 16:00:18.578751
Title: OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models
Title（参考訳）: OpenFMNav: Vision-Language Foundation Modelsによるオープンセットゼロショットオブジェクトナビゲーションを目指す
Authors: Yuxuan Kuang, Hai Lin, Meng Jiang
Abstract要約: ゼロショットオブジェクトナビゲーションのためのオープンセットファウンデーションモデルベースのフレームワークであるOpenFMNavを提案する。まず,大規模言語モデルの推論能力を解き明かし,提案するオブジェクトを自然言語命令から抽出する。次に、大規模視覚言語モデルの一般化可能性を活用して、シーンから候補対象を積極的に発見し、検出する。
参考スコア（独自算出の注目度）: 18.54932978194969
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Object navigation (ObjectNav) requires an agent to navigate through unseen environments to find queried objects. Many previous methods attempted to solve this task by relying on supervised or reinforcement learning, where they are trained on limited household datasets with close-set objects. However, two key challenges are unsolved: understanding free-form natural language instructions that demand open-set objects, and generalizing to new environments in a zero-shot manner. Aiming to solve the two challenges, in this paper, we propose OpenFMNav, an Open-set Foundation Model based framework for zero-shot object Navigation. We first unleash the reasoning abilities of large language models (LLMs) to extract proposed objects from natural language instructions that meet the user's demand. We then leverage the generalizability of large vision language models (VLMs) to actively discover and detect candidate objects from the scene, building a Versatile Semantic Score Map (VSSM). Then, by conducting common sense reasoning on VSSM, our method can perform effective language-guided exploration and exploitation of the scene and finally reach the goal. By leveraging the reasoning and generalizing abilities of foundation models, our method can understand free-form human instructions and perform effective open-set zero-shot navigation in diverse environments. Extensive experiments on the HM3D ObjectNav benchmark show that our method surpasses all the strong baselines on all metrics, proving our method's effectiveness. Furthermore, we perform real robot demonstrations to validate our method's open-set-ness and generalizability to real-world environments.
Abstract（参考訳）: オブジェクトナビゲーション(objectnav) エージェントは、クエリされたオブジェクトを見つけるために、見えない環境をナビゲートする必要がある。従来の多くの手法では、教師付き学習や強化学習に頼って、近接したオブジェクトを持つ限られた家庭データセットでトレーニングを行おうとしていた。しかし、オープンセットオブジェクトを要求する自由形式の自然言語命令を理解することと、ゼロショット方式で新しい環境に一般化することである。本稿では、この2つの課題を解決するために、ゼロショットオブジェクトナビゲーションのためのオープンセット財団モデルベースのフレームワークOpenFMNavを提案する。まず,ユーザの要求を満たす自然言語命令から提案したオブジェクトを抽出するために,大規模言語モデル(LLM)の推論能力を解き放つ。次に、大規模視覚言語モデル(VLM)の一般化可能性を活用し、現場から候補対象を積極的に発見・検出し、VSSM(Versatile Semantic Score Map)を構築する。そして,VSSM上で常識推論を行うことで,シーンの効果的な言語誘導探索と活用を行い,最終的に目標に到達する。基礎モデルの推論と一般化機能を利用することで,自由形人間の指示を理解し,多様な環境において効果的なオープンセットゼロショットナビゲーションを行うことができる。 hm3d objectnavベンチマークの広範な実験により,提案手法がすべての測定値の強いベースラインを上回っており,提案手法の有効性が証明された。さらに,本手法のオープンセット性と実環境への一般化性を検証するために,実ロボットによる実演を行う。

関連論文リスト

OpenNav: Open-World Navigation with Multimodal Large Language Models [8.41361699991122]
大型言語モデル(LLM)は強力な常識推論能力を示しており、ロボットナビゲーションと計画タスクを約束している。ロボットが複雑な言語命令を解釈して分解し、最終的には一連の軌跡を合成して、多様なナビゲーションタスクを完備化することを目指している。室内および屋外の両方のシーンにおいて,ハスキーロボットを用いたシステムの有効性を検証し,実世界のロバスト性と適用性を示す。
論文参考訳（メタデータ） (2025-07-24T02:05:28Z)
History-Augmented Vision-Language Models for Frontier-Based Zero-Shot Object Navigation [5.343932820859596]
本稿では、動的履歴認識プロンプトの利用を先駆する新しいゼロショットObjectNavフレームワークを提案する。私たちの中心となるイノベーションは、VLMにアクション履歴コンテキストを提供し、ナビゲーションアクションのセマンティックガイダンススコアを生成することです。また、検出対象に対する最終アプローチを洗練するためのVLM支援のウェイポイント生成機構も導入する。
論文参考訳（メタデータ） (2025-06-19T21:50:16Z)
SemNav: A Model-Based Planner for Zero-Shot Object Goal Navigation Using Vision-Foundation Models [10.671262416557704]
Vision Foundation Models (VFM) は視覚的理解と推論に強力な機能を提供する。本稿では,VFMの知覚的強度をモデルベースプランナと統合したゼロショットオブジェクトゴールナビゲーションフレームワークを提案する。本研究では,Habitatシミュレータを用いてHM3Dデータセットに対するアプローチを評価し,提案手法が最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-06-04T03:04:54Z)
DOPE: Dual Object Perception-Enhancement Network for Vision-and-Language Navigation [1.4154022683679812]
VLN(Vision-and-Language Navigation)は、エージェントが言語命令を理解し、視覚的手がかりを使って未知の環境をナビゲートしなければならない課題である。本稿では,これらの問題に対処し,ナビゲーション性能を向上させるために,Dual Object Perception-Enhancement Network (DOPE)を提案する。
論文参考訳（メタデータ） (2025-04-30T06:47:13Z)
Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation [35.71602601385161]
本稿では,視覚言語モデル(VLM)に基づくナビゲーションフレームワークを提案する。提案手法は,長期タスクにおける空間的推論と意思決定を促進する。実験の結果,提案手法は従来のオブジェクトナビゲーションタスクの手法を超越していることがわかった。
論文参考訳（メタデータ） (2025-02-20T04:41:40Z)
Zero-shot Object-Centric Instruction Following: Integrating Foundation Models with Traditional Navigation [8.788856156414026]
大規模なシーンは、因子グラフ内のロボットのポーズと合わせて推定されるランドマークの3Dグラフで、堅牢かつ効率的にマッピングすることができる。そこで本研究では,自然言語命令のゼロショット手法であるLanguage-Inferred Factor Graph for Instruction following (LIFGIF)を提案する。ボストン・ダイナミクス・スポット・ロボットを用いた実世界におけるゼロショット物体中心指導におけるLIFGIFの有効性を実証した。
論文参考訳（メタデータ） (2024-11-12T15:01:40Z)
Open-World Object Detection with Instance Representation Learning [1.8749305679160366]
本研究では,新しい物体を検知し,オープンワールド条件下で意味的にリッチな特徴を抽出できる物体検知器の訓練手法を提案する。提案手法は頑健で一般化可能な特徴空間を学習し,他のOWODに基づく特徴抽出法よりも優れている。
論文参考訳（メタデータ） (2024-09-24T13:13:34Z)
One Map to Find Them All: Real-time Open-Vocabulary Mapping for Zero-shot Multi-Object Navigation [2.022249798290507]
ゼロショットマルチオブジェクトナビゲーションのための新しいベンチマークを導入する。リアルタイムオブジェクト検索に適した,再利用可能なオープン語彙機能マップを構築した。単一目的と多目的のナビゲーションタスクにおいて,既存の最先端のアプローチよりも優れていることを示す。
論文参考訳（メタデータ） (2024-09-18T07:44:08Z)
Localizing Active Objects from Egocentric Vision with Symbolic World Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。 Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文参考訳（メタデータ） (2023-10-23T16:14:05Z)
Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文参考訳（メタデータ） (2023-08-10T14:21:33Z)
Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文参考訳（メタデータ） (2023-03-06T20:19:19Z)
ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object Navigation [75.13546386761153]
我々は,新しいゼロショットオブジェクトナビゲーション手法であるExploration with Soft Commonsense constraints (ESC)を提案する。 ESCは、事前訓練されたモデルのコモンセンス知識を、ナビゲーション経験のないオープンワールドオブジェクトナビゲーションに転送する。 MP3D, HM3D, RoboTHORのベンチマーク実験により, ESC法はベースラインよりも大幅に改善されていることがわかった。
論文参考訳（メタデータ） (2023-01-30T18:37:32Z)
PONI: Potential Functions for ObjectGoal Navigation with Interaction-free Learning [125.22462763376993]
対話自由学習(PONI)を用いたオブジェクト指向ナビゲーションの可能性について提案する。 PONIは、物がどこに見えるかというスキルと、どのように(x, y)にナビゲートするかを歪めます。」
論文参考訳（メタデータ） (2022-01-25T01:07:32Z)
MOCA: A Modular Object-Centric Approach for Interactive Instruction Following [19.57344182656879]
本稿では,タスクを視覚認識と行動ポリシーに分離するモジュールアーキテクチャを提案する。提案手法をALFREDベンチマークで評価し,先行技術より優れていることを実証的に検証した。
論文参考訳（メタデータ） (2020-12-06T07:59:22Z)
Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文参考訳（メタデータ） (2020-07-01T17:52:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。