論文の概要: MapGPT: Map-Guided Prompting for Unified Vision-and-Language Navigation
- arxiv url: http://arxiv.org/abs/2401.07314v1
- Date: Sun, 14 Jan 2024 15:34:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 18:59:27.575719
- Title: MapGPT: Map-Guided Prompting for Unified Vision-and-Language Navigation
- Title(参考訳): mapgpt:統一視覚言語ナビゲーションのための地図案内プロンプト
- Authors: Jiaqi Chen, Bingqian Lin, Ran Xu, Zhenhua Chai, Xiaodan Liang,
Kwan-Yee K. Wong
- Abstract要約: ゼロショット・ヴィジュアル・アンド・ランゲージ・ナビゲーションタスクのための地図誘導型GPT経路計画エージェントであるMapGPTを提案する。
具体的には、オンラインで構築されたトポロジカルマップをプロンプトに変換し、地図誘導の世界探検を促進する。
実験では、MapGPTが有効であることを示し、R2RデータセットとREVERIEデータセットの両方で優れたパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 78.21308980950451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied agents equipped with GPT as their brain have exhibited extraordinary
thinking and decision-making abilities across various tasks. However, existing
zero-shot agents for vision-and-language navigation (VLN) only prompt the GPT
to handle excessive environmental information and select potential locations
within localized environments, without constructing an effective
''global-view'' (e.g., a commonly-used map) for the agent to understand the
overall environment. In this work, we present a novel map-guided GPT-based
path-planning agent, dubbed MapGPT, for the zero-shot VLN task. Specifically,
we convert a topological map constructed online into prompts to encourage
map-guided global exploration, and require the agent to explicitly output and
update multi-step path planning to avoid getting stuck in local exploration.
Extensive experiments demonstrate that our MapGPT is effective, achieving
impressive performance on both the R2R and REVERIE datasets (38.8% and 28.4%
success rate, respectively) and showcasing the newly emerged global thinking
and path planning capabilities of the GPT model. Unlike previous VLN agents,
which require separate parameters fine-tuning or specific prompt design to
accommodate various instruction styles across different datasets, our MapGPT is
more unified as it can adapt to different instruction styles seamlessly, which
is the first of its kind in this field.
- Abstract(参考訳): 脳にGPTを装着した身体エージェントは、様々なタスクにおいて異常な思考と意思決定能力を示した。
しかしながら、視覚・言語ナビゲーション(VLN)のための既存のゼロショットエージェントは、エージェントが全体の環境を理解するために効果的な「グローバルビュー」を構築することなく、GPTに過剰な環境情報を処理し、局所的な環境内の潜在的な場所を選択することを促すだけである。
本稿では,ゼロショットvlnタスクのための新しいmap-guided gptベースの経路計画エージェントmapgptを提案する。
具体的には、オンラインで構築されたトポロジカルマップを、地図誘導のグローバルな探索を促進するプロンプトに変換し、エージェントが局所的な探索に支障を来すのを避けるために、明示的に複数ステップの経路計画を出力し、更新する必要がある。
大規模な実験により、我々のMapGPTは有効であり、R2RデータセットとREVERIEデータセット(それぞれ38.8%と28.4%の成功率)において印象的な性能を達成し、新たに登場したGPTモデルのグローバル思考とパス計画能力を示す。
異なるデータセットにまたがる様々な命令スタイルに対応するために、パラメータの微調整や特定のプロンプト設計を必要とする以前のvlnエージェントとは異なり、mapgptは異なる命令スタイルにシームレスに適応できるため、より統一されている。
関連論文リスト
- GaGA: Towards Interactive Global Geolocation Assistant [18.74679545308662]
GaGAは大きな視覚言語モデル(LVLM)上に構築された対話型グローバルジオロケーションアシスタントである
画像中の地理的手がかりを発見し、LVLMに埋め込まれた広い世界知識と組み合わせて位置情報を決定する。
GaGAはGWS15kデータセットの最先端のパフォーマンスを達成し、国レベルでは4.57%、都市レベルでは2.92%の精度を向上している。
論文 参考訳(メタデータ) (2024-12-12T03:39:44Z) - Guide-LLM: An Embodied LLM Agent and Text-Based Topological Map for Robotic Guidance of People with Visual Impairments [1.18749525824656]
Guide-LLMは、大きな屋内環境をナビゲートする際の視覚障害者(PVI)を支援するために設計されたテキストベースのエージェントである。
我々のアプローチは,LLMがグローバルパスを計画できる新しいテキストベースのトポロジマップを特徴としている。
シミュレーション実験は、PVIを誘導するシステムの有効性を実証し、その可能性を補助技術の重要な進歩として示している。
論文 参考訳(メタデータ) (2024-10-28T01:58:21Z) - Core Building Blocks: Next Gen Geo Spatial GPT Application [0.0]
本稿では,自然言語理解と空間データ分析のギャップを埋めることを目的としたMapGPTを紹介する。
MapGPTは、ロケーションベースのクエリに対するより正確でコンテキスト対応の応答を可能にする。
論文 参考訳(メタデータ) (2023-10-17T06:59:31Z) - GPT4GEO: How a Language Model Sees the World's Geography [31.215906518290883]
GPT-4が実際的な地理的知識を獲得した程度について検討する。
この知識は、地理的データを含むアプリケーションにとって特に重要である。
我々は、GPT-4が世界について知っていることの幅広い特徴付けを提供し、潜在的に驚くべき能力と制限の両方を強調します。
論文 参考訳(メタデータ) (2023-05-30T18:28:04Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z) - ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints [94.60414567852536]
長距離航法には、計画と局所的な移動可能性の推論の両方が必要である。
学習と計画を統合する学習に基づくアプローチを提案する。
ViKiNGは、画像ベースの学習コントローラを利用できる。
論文 参考訳(メタデータ) (2022-02-23T02:14:23Z) - Differentiable Spatial Planning using Transformers [87.90709874369192]
本研究では、長距離空間依存を計画して行動を生成する障害マップを与えられた空間計画変換器(SPT)を提案する。
エージェントが地上の真理マップを知らない環境では、エンド・ツー・エンドのフレームワークで事前訓練されたSPTを利用する。
SPTは、操作タスクとナビゲーションタスクの両方のすべてのセットアップにおいて、最先端の差別化可能なプランナーよりも優れています。
論文 参考訳(メタデータ) (2021-12-02T06:48:16Z) - UAV Path Planning using Global and Local Map Information with Deep
Reinforcement Learning [16.720630804675213]
本研究は, 深部強化学習(DRL)に基づく自律型UAV経路計画法を提案する。
我々は、UAVの目標は、データ収集(DH)への関心領域を調査することであり、UAVは分散IoT(Internet of Things)センサーデバイスからデータを収集することである。
環境の構造化マップ情報を活用することで、異なるミッションシナリオで同一のアーキテクチャを持つ二重深度Q-networks(DDQN)を訓練する。
論文 参考訳(メタデータ) (2020-10-14T09:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。