論文の概要: Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Based Zero-Shot
Object Navigation
- arxiv url: http://arxiv.org/abs/2303.03480v1
- Date: Mon, 6 Mar 2023 20:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 17:21:20.207206
- Title: Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Based Zero-Shot
Object Navigation
- Title(参考訳): キャット型マグカップ」発見は可能か?(動画あり)
LLMによるゼロショットオブジェクトナビゲーション
- Authors: Vishnu Sashank Dorbala, James F. Mullen Jr., Dinesh Manocha
- Abstract要約: 言語駆動型ゼロショット方式のオブジェクト指向ナビゲーションのための新しいアルゴリズムLGXを提案する。
環境の意味的文脈に関する暗黙の知識をロボットの動き計画のための逐次入力にマップする。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
- 参考スコア(独自算出の注目度): 61.65753320710564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present LGX, a novel algorithm for Object Goal Navigation in a
"language-driven, zero-shot manner", where an embodied agent navigates to an
arbitrarily described target object in a previously unexplored environment. Our
approach leverages the capabilities of Large Language Models (LLMs) for making
navigational decisions by mapping the LLMs implicit knowledge about the
semantic context of the environment into sequential inputs for robot motion
planning. Simultaneously, we also conduct generalized target object detection
using a pre-trained Vision-Language grounding model. We achieve
state-of-the-art zero-shot object navigation results on RoboTHOR with a success
rate (SR) improvement of over 27% over the current baseline of the OWL-ViT CLIP
on Wheels (OWL CoW). Furthermore, we study the usage of LLMs for robot
navigation and present an analysis of the various semantic factors affecting
model output. Finally, we showcase the benefits of our approach via real-world
experiments that indicate the superior performance of LGX when navigating to
and detecting visually unique objects.
- Abstract(参考訳): 提案するlgxは「言語駆動、ゼロショット方式」で対象目標のナビゲーションを行う新しいアルゴリズムであり、具体化エージェントが予め未検討の環境で任意に記述された対象オブジェクトにナビゲートする。
提案手法は,LLMが環境の意味的文脈に関する暗黙的な知識をロボットの動き計画のための逐次入力にマッピングすることで,ナビゲーション決定のための言語モデル(LLM)の機能を利用する。
同時に、トレーニング済みのビジョンランゲージグラウンドモデルを用いて、一般化対象検出を行う。
OWL-ViT CLIP on Wheels (OWL CoW) の現在のベースラインよりも27%以上向上したRoboTHOR上での最先端のゼロショットオブジェクトナビゲーション結果が得られた。
さらに,ロボットナビゲーションにおけるLLMの利用について検討し,モデル出力に影響を与える様々な意味要因の分析を行った。
最後に,本手法の利点を実世界実験で示し,視覚にユニークな物体をナビゲートし検出する際のlgxの優れた性能を示す。
関連論文リスト
- SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation [83.4599149936183]
既存のゼロショットオブジェクトナビゲーション手法は、空間的に閉じたオブジェクトのテキストでLCMをプロンプトする。
本稿では,3次元シーングラフを用いて観察されたシーンを表現することを提案する。
我々は,MP3D,HM3D,RoboTHOR環境において,SG-Navが従来のゼロショット法を10%以上のSRで上回る大規模な実験を行った。
論文 参考訳(メタデータ) (2024-10-10T17:57:19Z) - LOC-ZSON: Language-driven Object-Centric Zero-Shot Object Retrieval and Navigation [41.34703238334362]
LOC-ZSONは、複雑なシーンにおけるオブジェクトナビゲーションタスクのための、言語駆動のオブジェクト中心の画像表現である。
視覚言語モデル(VLM)の微調整におけるオブジェクト中心の画像表現とそれに対応する損失を提案する。
提案手法をAstroロボットに実装し,実環境とシミュレーション環境の両方にデプロイし,ゼロショットオブジェクトナビゲーションを実現する。
論文 参考訳(メタデータ) (2024-05-08T18:45:37Z) - GOAT-Bench: A Benchmark for Multi-Modal Lifelong Navigation [65.71524410114797]
GOAT-BenchはユニバーサルナビゲーションタスクGO to AnyThing(GOAT)のベンチマークである。
GOATでは、エージェントはカテゴリ名、言語記述、イメージによって指定されたターゲットのシーケンスにナビゲートするように指示される。
我々はGOATタスク上でモノリシックなRLおよびモジュラーメソッドをベンチマークし、その性能をモダリティにわたって分析する。
論文 参考訳(メタデータ) (2024-04-09T20:40:00Z) - Cognitive Planning for Object Goal Navigation using Generative AI Models [0.979851640406258]
本稿では,効率的な探索戦略を生成するオブジェクトゴールナビゲーション問題を解決するための新しいフレームワークを提案する。
我々のアプローチは,Large Language Models (LLMs) とLarge Vision-Language Models (LVLMs) を活用することで,ロボットが慣れない環境をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-03-30T10:54:59Z) - OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via Vision-Language Foundation Models [16.50443396055173]
ゼロショットオブジェクトナビゲーションのためのオープンセットファウンデーションモデルベースのフレームワークであるOpenFMNavを提案する。
まず,大規模言語モデルの推論能力を解き明かし,提案するオブジェクトを自然言語命令から抽出する。
次に、大規模視覚言語モデルの一般化可能性を活用して、シーンから候補対象を積極的に発見し、検出する。
論文 参考訳(メタデータ) (2024-02-16T13:21:33Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large
Language Models [17.495162643127003]
我々は,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにするために,NavGPTを導入した。
NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論する。
本研究では,NavGPTが経路に沿った観察や行動から高品質なナビゲーション命令を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-26T14:41:06Z) - ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object
Navigation [75.13546386761153]
我々は,新しいゼロショットオブジェクトナビゲーション手法であるExploration with Soft Commonsense constraints (ESC)を提案する。
ESCは、事前訓練されたモデルのコモンセンス知識を、ナビゲーション経験のないオープンワールドオブジェクトナビゲーションに転送する。
MP3D, HM3D, RoboTHORのベンチマーク実験により, ESC法はベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-01-30T18:37:32Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。