論文の概要: Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Based Zero-Shot
Object Navigation
- arxiv url: http://arxiv.org/abs/2303.03480v1
- Date: Mon, 6 Mar 2023 20:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-08 17:21:20.207206
- Title: Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Based Zero-Shot
Object Navigation
- Title(参考訳): キャット型マグカップ」発見は可能か?(動画あり)
LLMによるゼロショットオブジェクトナビゲーション
- Authors: Vishnu Sashank Dorbala, James F. Mullen Jr., Dinesh Manocha
- Abstract要約: 言語駆動型ゼロショット方式のオブジェクト指向ナビゲーションのための新しいアルゴリズムLGXを提案する。
環境の意味的文脈に関する暗黙の知識をロボットの動き計画のための逐次入力にマップする。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
- 参考スコア(独自算出の注目度): 61.65753320710564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present LGX, a novel algorithm for Object Goal Navigation in a
"language-driven, zero-shot manner", where an embodied agent navigates to an
arbitrarily described target object in a previously unexplored environment. Our
approach leverages the capabilities of Large Language Models (LLMs) for making
navigational decisions by mapping the LLMs implicit knowledge about the
semantic context of the environment into sequential inputs for robot motion
planning. Simultaneously, we also conduct generalized target object detection
using a pre-trained Vision-Language grounding model. We achieve
state-of-the-art zero-shot object navigation results on RoboTHOR with a success
rate (SR) improvement of over 27% over the current baseline of the OWL-ViT CLIP
on Wheels (OWL CoW). Furthermore, we study the usage of LLMs for robot
navigation and present an analysis of the various semantic factors affecting
model output. Finally, we showcase the benefits of our approach via real-world
experiments that indicate the superior performance of LGX when navigating to
and detecting visually unique objects.
- Abstract(参考訳): 提案するlgxは「言語駆動、ゼロショット方式」で対象目標のナビゲーションを行う新しいアルゴリズムであり、具体化エージェントが予め未検討の環境で任意に記述された対象オブジェクトにナビゲートする。
提案手法は,LLMが環境の意味的文脈に関する暗黙的な知識をロボットの動き計画のための逐次入力にマッピングすることで,ナビゲーション決定のための言語モデル(LLM)の機能を利用する。
同時に、トレーニング済みのビジョンランゲージグラウンドモデルを用いて、一般化対象検出を行う。
OWL-ViT CLIP on Wheels (OWL CoW) の現在のベースラインよりも27%以上向上したRoboTHOR上での最先端のゼロショットオブジェクトナビゲーション結果が得られた。
さらに,ロボットナビゲーションにおけるLLMの利用について検討し,モデル出力に影響を与える様々な意味要因の分析を行った。
最後に,本手法の利点を実世界実験で示し,視覚にユニークな物体をナビゲートし検出する際のlgxの優れた性能を示す。
関連論文リスト
- TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。
環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。
また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文 参考訳(メタデータ) (2024-03-13T05:22:39Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - OpenFMNav: Towards Open-Set Zero-Shot Object Navigation via
Vision-Language Foundation Models [18.54932978194969]
ゼロショットオブジェクトナビゲーションのためのオープンセットファウンデーションモデルベースのフレームワークであるOpenFMNavを提案する。
まず,大規模言語モデルの推論能力を解き明かし,提案するオブジェクトを自然言語命令から抽出する。
次に、大規模視覚言語モデルの一般化可能性を活用して、シーンから候補対象を積極的に発見し、検出する。
論文 参考訳(メタデータ) (2024-02-16T13:21:33Z) - Language-Based Augmentation to Address Shortcut Learning in Object Goal
Navigation [0.0]
ObjectNavにおけるショートカット学習の理解を深めることを目指しています。
本研究では,SOTA(State-of-the-art)のObjectNavメソッドを,そうでない環境へ一般化する過程を観察する。
エージェントは、対象物の部屋の関連する壁の色を単に検索することで、対象物へのナビゲートを学習する。
論文 参考訳(メタデータ) (2024-02-07T18:44:27Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large
Language Models [17.495162643127003]
我々は,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにするために,NavGPTを導入した。
NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論する。
本研究では,NavGPTが経路に沿った観察や行動から高品質なナビゲーション命令を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-26T14:41:06Z) - ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object
Navigation [75.13546386761153]
我々は,新しいゼロショットオブジェクトナビゲーション手法であるExploration with Soft Commonsense constraints (ESC)を提案する。
ESCは、事前訓練されたモデルのコモンセンス知識を、ナビゲーション経験のないオープンワールドオブジェクトナビゲーションに転送する。
MP3D, HM3D, RoboTHORのベンチマーク実験により, ESC法はベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-01-30T18:37:32Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。