論文の概要: OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via
Vision-Language Foundation Models
- arxiv url: http://arxiv.org/abs/2402.10670v1
- Date: Fri, 16 Feb 2024 13:21:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 16:00:18.578751
- Title: OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via
Vision-Language Foundation Models
- Title(参考訳): OpenFMNav: Vision-Language Foundation Modelsによるオープンセットゼロショットオブジェクトナビゲーションを目指す
- Authors: Yuxuan Kuang, Hai Lin, Meng Jiang
- Abstract要約: ゼロショットオブジェクトナビゲーションのためのオープンセットファウンデーションモデルベースのフレームワークであるOpenFMNavを提案する。
まず,大規模言語モデルの推論能力を解き明かし,提案するオブジェクトを自然言語命令から抽出する。
次に、大規模視覚言語モデルの一般化可能性を活用して、シーンから候補対象を積極的に発見し、検出する。
- 参考スコア(独自算出の注目度): 18.54932978194969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object navigation (ObjectNav) requires an agent to navigate through unseen
environments to find queried objects. Many previous methods attempted to solve
this task by relying on supervised or reinforcement learning, where they are
trained on limited household datasets with close-set objects. However, two key
challenges are unsolved: understanding free-form natural language instructions
that demand open-set objects, and generalizing to new environments in a
zero-shot manner. Aiming to solve the two challenges, in this paper, we propose
OpenFMNav, an Open-set Foundation Model based framework for zero-shot object
Navigation. We first unleash the reasoning abilities of large language models
(LLMs) to extract proposed objects from natural language instructions that meet
the user's demand. We then leverage the generalizability of large vision
language models (VLMs) to actively discover and detect candidate objects from
the scene, building a Versatile Semantic Score Map (VSSM). Then, by conducting
common sense reasoning on VSSM, our method can perform effective
language-guided exploration and exploitation of the scene and finally reach the
goal. By leveraging the reasoning and generalizing abilities of foundation
models, our method can understand free-form human instructions and perform
effective open-set zero-shot navigation in diverse environments. Extensive
experiments on the HM3D ObjectNav benchmark show that our method surpasses all
the strong baselines on all metrics, proving our method's effectiveness.
Furthermore, we perform real robot demonstrations to validate our method's
open-set-ness and generalizability to real-world environments.
- Abstract(参考訳): オブジェクトナビゲーション(objectnav) エージェントは、クエリされたオブジェクトを見つけるために、見えない環境をナビゲートする必要がある。
従来の多くの手法では、教師付き学習や強化学習に頼って、近接したオブジェクトを持つ限られた家庭データセットでトレーニングを行おうとしていた。
しかし、オープンセットオブジェクトを要求する自由形式の自然言語命令を理解することと、ゼロショット方式で新しい環境に一般化することである。
本稿では、この2つの課題を解決するために、ゼロショットオブジェクトナビゲーションのためのオープンセット財団モデルベースのフレームワークOpenFMNavを提案する。
まず,ユーザの要求を満たす自然言語命令から提案したオブジェクトを抽出するために,大規模言語モデル(LLM)の推論能力を解き放つ。
次に、大規模視覚言語モデル(VLM)の一般化可能性を活用し、現場から候補対象を積極的に発見・検出し、VSSM(Versatile Semantic Score Map)を構築する。
そして,VSSM上で常識推論を行うことで,シーンの効果的な言語誘導探索と活用を行い,最終的に目標に到達する。
基礎モデルの推論と一般化機能を利用することで,自由形人間の指示を理解し,多様な環境において効果的なオープンセットゼロショットナビゲーションを行うことができる。
hm3d objectnavベンチマークの広範な実験により,提案手法がすべての測定値の強いベースラインを上回っており,提案手法の有効性が証明された。
さらに,本手法のオープンセット性と実環境への一般化性を検証するために,実ロボットによる実演を行う。
関連論文リスト
- Open-World Object Detection with Instance Representation Learning [1.8749305679160366]
本研究では,新しい物体を検知し,オープンワールド条件下で意味的にリッチな特徴を抽出できる物体検知器の訓練手法を提案する。
提案手法は頑健で一般化可能な特徴空間を学習し,他のOWODに基づく特徴抽出法よりも優れている。
論文 参考訳(メタデータ) (2024-09-24T13:13:34Z) - One Map to Find Them All: Real-time Open-Vocabulary Mapping for Zero-shot Multi-Object Navigation [2.022249798290507]
ゼロショットマルチオブジェクトナビゲーションのための新しいベンチマークを導入する。
リアルタイムオブジェクト検索に適した,再利用可能なオープン語彙機能マップを構築した。
単一目的と多目的のナビゲーションタスクにおいて,既存の最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-09-18T07:44:08Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object
Navigation [75.13546386761153]
我々は,新しいゼロショットオブジェクトナビゲーション手法であるExploration with Soft Commonsense constraints (ESC)を提案する。
ESCは、事前訓練されたモデルのコモンセンス知識を、ナビゲーション経験のないオープンワールドオブジェクトナビゲーションに転送する。
MP3D, HM3D, RoboTHORのベンチマーク実験により, ESC法はベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-01-30T18:37:32Z) - PONI: Potential Functions for ObjectGoal Navigation with
Interaction-free Learning [125.22462763376993]
対話自由学習(PONI)を用いたオブジェクト指向ナビゲーションの可能性について提案する。
PONIは、物がどこに見えるかというスキルと、どのように(x, y)にナビゲートするかを歪めます。」
論文 参考訳(メタデータ) (2022-01-25T01:07:32Z) - MOCA: A Modular Object-Centric Approach for Interactive Instruction
Following [19.57344182656879]
本稿では,タスクを視覚認識と行動ポリシーに分離するモジュールアーキテクチャを提案する。
提案手法をALFREDベンチマークで評価し,先行技術より優れていることを実証的に検証した。
論文 参考訳(メタデータ) (2020-12-06T07:59:22Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。