論文の概要: Perceive, Reflect, and Plan: Designing LLM Agent for Goal-Directed City Navigation without Instructions
- arxiv url: http://arxiv.org/abs/2408.04168v3
- Date: Thu, 17 Oct 2024 06:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 12:22:45.582261
- Title: Perceive, Reflect, and Plan: Designing LLM Agent for Goal-Directed City Navigation without Instructions
- Title(参考訳): 知覚・反射・計画:指導無しのゴール指向型都市ナビゲーションのためのLLMエージェントの設計
- Authors: Qingbin Zeng, Qinglong Yang, Shunan Dong, Heming Du, Liang Zheng, Fengli Xu, Yong Li,
- Abstract要約: 本稿では,その知覚,反映,計画能力に特徴付けられる新しいエージェントワークフローを提案する。
LLaVA-7Bは都市のナビゲーションに十分な精度でランドマークの方向と距離を把握できるように微調整できる。
- 参考スコア(独自算出の注目度): 19.03156236107806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper considers a scenario in city navigation: an AI agent is provided with language descriptions of the goal location with respect to some well-known landmarks; By only observing the scene around, including recognizing landmarks and road network connections, the agent has to make decisions to navigate to the goal location without instructions. This problem is very challenging, because it requires agent to establish self-position and acquire spatial representation of complex urban environment, where landmarks are often invisible. In the absence of navigation instructions, such abilities are vital for the agent to make high-quality decisions in long-range city navigation. With the emergent reasoning ability of large language models (LLMs), a tempting baseline is to prompt LLMs to "react" on each observation and make decisions accordingly. However, this baseline has very poor performance that the agent often repeatedly visits same locations and make short-sighted, inconsistent decisions. To address these issues, this paper introduces a novel agentic workflow featured by its abilities to perceive, reflect and plan. Specifically, we find LLaVA-7B can be fine-tuned to perceive the direction and distance of landmarks with sufficient accuracy for city navigation. Moreover, reflection is achieved through a memory mechanism, where past experiences are stored and can be retrieved with current perception for effective decision argumentation. Planning uses reflection results to produce long-term plans, which can avoid short-sighted decisions in long-range navigation. We show the designed workflow significantly improves navigation ability of the LLM agent compared with the state-of-the-art baselines.
- Abstract(参考訳): 本稿では、都市ナビゲーションにおけるシナリオについて考察する:AIエージェントは、よく知られたランドマークに対する目標位置の言語記述を提供する;ランドマークと道路ネットワーク接続の認識を含む周囲のシーンのみを観察することにより、エージェントは指示なしで目標位置へのナビゲーションを決定する必要がある。
この問題は、しばしばランドマークが見えない複雑な都市環境の自己配置と空間表現を取得するためにエージェントが必要であるため、非常に難しい。
ナビゲーションの指示がない場合、このような能力は、長距離都市ナビゲーションにおいて高品質な意思決定を行うために、エージェントにとって不可欠である。
大規模言語モデル(LLM)の創発的推論能力によって、誘惑のベースラインは、それぞれの観察に対してLSMに「反応」させ、それに応じて決定を下すことである。
しかし、このベースラインは非常に貧弱なパフォーマンスのため、エージェントは頻繁に同じ場所を訪れ、近視眼的で一貫性のない決定をする。
これらの課題に対処するために,本論文では,その知覚・反映・計画能力に特徴付けられる新しいエージェントワークフローを提案する。
具体的には、LLaVA-7Bは、都市のナビゲーションに十分な精度でランドマークの方向と距離を把握できるように微調整できる。
さらに、過去の体験を記憶するメモリ機構を通じてリフレクションを達成し、現在の認識で検索して効果的な意思決定の議論を行う。
計画では、リフレクション結果を使って長期計画を作成し、長距離航法における短期的な決定を避けることができる。
設計したワークフローは、最先端のベースラインと比較して、LLMエージェントのナビゲーション能力を大幅に改善する。
関連論文リスト
- VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large
Language Models [17.495162643127003]
我々は,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにするために,NavGPTを導入した。
NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論する。
本研究では,NavGPTが経路に沿った観察や行動から高品質なナビゲーション命令を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-26T14:41:06Z) - What do navigation agents learn about their environment? [39.74076893981299]
本稿では、ポイントゴールナビゲーションエージェントとオブジェクトゴールナビゲーションエージェントのための、エンボディード・アグエント(iSEE)の解釈可能性システムについて紹介する。
これらのエージェントが生成する動的表現をiSEEを用いて探索し,エージェントや環境に関する情報を提示する。
論文 参考訳(メタデータ) (2022-06-17T01:33:43Z) - Teaching Agents how to Map: Spatial Reasoning for Multi-Object
Navigation [11.868792440783055]
与えられた位置におけるエージェントと到達目標の間の空間的関係を定量化する指標を推定する学習は、多目的ナビゲーション設定において高い正の影響を及ぼすことを示す。
提案された補助的損失で訓練された文献の学習ベースのエージェントは、マルチオブジェクトナビゲーションチャレンジへの勝利であった。
論文 参考訳(メタデータ) (2021-07-13T12:01:05Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。