Fugu-MT 論文翻訳(概要): MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation

論文の概要: MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation

arxiv url: http://arxiv.org/abs/2401.07314v3
Date: Thu, 20 Jun 2024 07:23:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-22 05:48:32.021404
Title: MapGPT: Map-Guided Prompting with Adaptive Path Planning for Vision-and-Language Navigation
Title（参考訳）: MapGPT:視覚・言語ナビゲーションのための適応経路計画付きマップガイドプロンプト
Authors: Jiaqi Chen, Bingqian Lin, Ran Xu, Zhenhua Chai, Xiaodan Liang, Kwan-Yee K. Wong,
Abstract要約: GPTを装備した身体的エージェントは、様々なタスクにまたがる異常な意思決定と一般化能力を示した。本稿では,グローバルな探索を促進するオンライン言語地図を提供するMapGPTという,地図誘導型GPTエージェントについて紹介する。本設計の利点を生かして,地図に基づく多段階経路計画を行うエージェントを支援する適応型計画手法を提案する。
参考スコア（独自算出の注目度）: 73.81268591484198
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Embodied agents equipped with GPT as their brains have exhibited extraordinary decision-making and generalization abilities across various tasks. However, existing zero-shot agents for vision-and-language navigation (VLN) only prompt GPT-4 to select potential locations within localized environments, without constructing an effective "global-view" for the agent to understand the overall environment. In this work, we present a novel map-guided GPT-based agent, dubbed MapGPT, which introduces an online linguistic-formed map to encourage global exploration. Specifically, we build an online map and incorporate it into the prompts that include node information and topological relationships, to help GPT understand the spatial environment. Benefiting from this design, we further propose an adaptive planning mechanism to assist the agent in performing multi-step path planning based on a map, systematically exploring multiple candidate nodes or sub-goals step by step. Extensive experiments demonstrate that our MapGPT is applicable to both GPT-4 and GPT-4V, achieving state-of-the-art zero-shot performance on R2R and REVERIE simultaneously (~10% and ~12% improvements in SR), and showcasing the newly emergent global thinking and path planning abilities of the GPT.
Abstract（参考訳）: 脳にGPTを装着した身体エージェントは、様々なタスクで異常な意思決定と一般化能力を示してきた。しかしながら、既存の視覚・言語ナビゲーションのためのゼロショットエージェント(VLN)は、エージェントが全体の環境を理解するための効果的な"グローバルビュー"を構築することなく、GPT-4に局所的な環境内の潜在的な場所を選択させるだけである。本研究では,グローバルな探索を促進するためのオンライン言語地図を提供するMapGPTという,地図誘導型GPTエージェントについて紹介する。具体的には、GPTが空間環境を理解するのに役立つように、オンラインマップを構築し、ノード情報やトポロジカルな関係を含むプロンプトに組み込む。さらに,本設計の利点を生かして,地図に基づく多段階経路計画を行い,複数の候補ノードやサブゴールを段階的に体系的に探索するエージェントを支援するための適応的計画手法を提案する。 GPT-4 と GPT-4V の両方に適用でき、R2R と REVERIE のゼロショット性能を同時に達成し(SR の約10% と 12% の改善)、GPT の新たなグローバルな思考と経路計画能力を示す。

関連論文リスト

GaGA: Towards Interactive Global Geolocation Assistant [20.342366228855735]
GaGAは大きな視覚言語モデル(LVLM)上に構築された対話型グローバルジオロケーションアシスタントである画像中の地理的手がかりを発見し、LVLMに埋め込まれた広い世界知識と組み合わせて位置情報を決定する。 GaGAはGWS15kデータセットの最先端のパフォーマンスを達成し、国レベルでは4.57%、都市レベルでは2.92%の精度を向上している。
論文参考訳（メタデータ） (2024-12-12T03:39:44Z)
Guide-LLM: An Embodied LLM Agent and Text-Based Topological Map for Robotic Guidance of People with Visual Impairments [1.18749525824656]
Guide-LLMは、大きな屋内環境をナビゲートする際の視覚障害者(PVI)を支援するために設計されたテキストベースのエージェントである。我々のアプローチは,LLMがグローバルパスを計画できる新しいテキストベースのトポロジマップを特徴としている。シミュレーション実験は、PVIを誘導するシステムの有効性を実証し、その可能性を補助技術の重要な進歩として示している。
論文参考訳（メタデータ） (2024-10-28T01:58:21Z)
Look Further Ahead: Testing the Limits of GPT-4 in Path Planning [9.461626534488117]
大きな言語モデル(LLM)は、様々なタスクで印象的な機能を示している。提案するベンチマークは,複雑な環境でのパス計画スキルを体系的にテストする。フレーミングはPythonのコードとして促進され、長い軌道上のタスクを分解することで、GPT-4の経路計画の有効性が向上することがわかった。
論文参考訳（メタデータ） (2024-06-17T18:12:56Z)
Core Building Blocks: Next Gen Geo Spatial GPT Application [0.0]
本稿では,自然言語理解と空間データ分析のギャップを埋めることを目的としたMapGPTを紹介する。 MapGPTは、ロケーションベースのクエリに対するより正確でコンテキスト対応の応答を可能にする。
論文参考訳（メタデータ） (2023-10-17T06:59:31Z)
GPT4GEO: How a Language Model Sees the World's Geography [31.215906518290883]
GPT-4が実際的な地理的知識を獲得した程度について検討する。この知識は、地理的データを含むアプリケーションにとって特に重要である。我々は、GPT-4が世界について知っていることの幅広い特徴付けを提供し、潜在的に驚くべき能力と制限の両方を強調します。
論文参考訳（メタデータ） (2023-05-30T18:28:04Z)
BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文参考訳（メタデータ） (2022-12-08T16:27:54Z)
Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文参考訳（メタデータ） (2022-10-14T04:23:27Z)
Think Global, Act Local: Dual-scale Graph Transformer for Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2022-02-23T19:06:53Z)
ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints [94.60414567852536]
長距離航法には、計画と局所的な移動可能性の推論の両方が必要である。学習と計画を統合する学習に基づくアプローチを提案する。 ViKiNGは、画像ベースの学習コントローラを利用できる。
論文参考訳（メタデータ） (2022-02-23T02:14:23Z)
Differentiable Spatial Planning using Transformers [87.90709874369192]
本研究では、長距離空間依存を計画して行動を生成する障害マップを与えられた空間計画変換器(SPT)を提案する。エージェントが地上の真理マップを知らない環境では、エンド・ツー・エンドのフレームワークで事前訓練されたSPTを利用する。 SPTは、操作タスクとナビゲーションタスクの両方のすべてのセットアップにおいて、最先端の差別化可能なプランナーよりも優れています。
論文参考訳（メタデータ） (2021-12-02T06:48:16Z)
UAV Path Planning using Global and Local Map Information with Deep Reinforcement Learning [16.720630804675213]
本研究は, 深部強化学習(DRL)に基づく自律型UAV経路計画法を提案する。我々は、UAVの目標は、データ収集(DH)への関心領域を調査することであり、UAVは分散IoT(Internet of Things)センサーデバイスからデータを収集することである。環境の構造化マップ情報を活用することで、異なるミッションシナリオで同一のアーキテクチャを持つ二重深度Q-networks(DDQN)を訓練する。
論文参考訳（メタデータ） (2020-10-14T09:59:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。