Fugu-MT 論文翻訳(概要): NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models

論文の概要: NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models

arxiv url: http://arxiv.org/abs/2305.16986v3
Date: Thu, 19 Oct 2023 17:59:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-20 19:57:49.774362
Title: NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models
Title（参考訳）: navgpt: 大きな言語モデルを用いた視覚言語ナビゲーションにおける明示的な推論
Authors: Gengze Zhou, Yicong Hong, Qi Wu
Abstract要約: 我々は,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにするために,NavGPTを導入した。 NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論する。本研究では,NavGPTが経路に沿った観察や行動から高品質なナビゲーション命令を生成可能であることを示す。
参考スコア（独自算出の注目度）: 17.495162643127003
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Trained with an unprecedented scale of data, large language models (LLMs) like ChatGPT and GPT-4 exhibit the emergence of significant reasoning abilities from model scaling. Such a trend underscored the potential of training LLMs with unlimited language data, advancing the development of a universal embodied agent. In this work, we introduce the NavGPT, a purely LLM-based instruction-following navigation agent, to reveal the reasoning capability of GPT models in complex embodied scenes by performing zero-shot sequential action prediction for vision-and-language navigation (VLN). At each step, NavGPT takes the textual descriptions of visual observations, navigation history, and future explorable directions as inputs to reason the agent's current status, and makes the decision to approach the target. Through comprehensive experiments, we demonstrate NavGPT can explicitly perform high-level planning for navigation, including decomposing instruction into sub-goal, integrating commonsense knowledge relevant to navigation task resolution, identifying landmarks from observed scenes, tracking navigation progress, and adapting to exceptions with plan adjustment. Furthermore, we show that LLMs is capable of generating high-quality navigational instructions from observations and actions along a path, as well as drawing accurate top-down metric trajectory given the agent's navigation history. Despite the performance of using NavGPT to zero-shot R2R tasks still falling short of trained models, we suggest adapting multi-modality inputs for LLMs to use as visual navigation agents and applying the explicit reasoning of LLMs to benefit learning-based models.
Abstract（参考訳）: 前例のない規模のデータで訓練されたChatGPTやGPT-4のような大規模言語モデル(LLM)は、モデルスケーリングによる重要な推論能力の出現を示している。このような傾向は、LLMを無制限の言語データで訓練する可能性を強調し、普遍的なエンボディエージェントの開発を進めた。本研究では,LLMに基づく指示追従ナビゲーションエージェントであるNavGPTを導入し,視覚・言語ナビゲーション(VLN)のためのゼロショットシーケンシャル動作予測を行うことにより,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにする。それぞれのステップにおいて、NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論し、ターゲットに近づく決定を下す。包括的実験を通じて,NavGPTは,ナビゲーションタスク解決に関する共通知識の統合,観察されたシーンからのランドマークの識別,ナビゲーション進行の追跡,計画調整による例外への適応など,ナビゲーションの高レベルな計画を実行することができることを示す。さらに, llmsは, 経路に沿った観測や行動から高品質なナビゲーション命令を生成できると同時に, エージェントのナビゲーション履歴に基づいて, 正確なトップダウンメトリック軌跡を描画できることを示した。 NavGPTをゼロショットのR2Rタスクに使用する性能は訓練されたモデルにはまだ及ばないが、視覚ナビゲーションエージェントとしてLLMにマルチモーダリティ入力を適用し、学習ベースモデルの恩恵を受けるためにLLMの明示的な推論を適用することを提案している。

関連論文リスト

ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation [53.95797153529148]
身体的エージェントは、主に部分的な自我中心の観測に依存するため、効率的なナビゲーションに苦しむことが多い。本稿では,マルチモーダル大規模言語モデル(MLLM)と決定論的プランナを結合することにより,この理由に基づくパラダイムを運用する,人間にインスパイアされたフレームワークであるReasonNaviを紹介する。
論文参考訳（メタデータ） (2026-01-26T19:09:20Z)
VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory [43.2995099083993]
VLAモデルは、認識と計画を統合することで、航法を具現化する有望な可能性を示してきた。既存のVLAモデルは、観察から行動へのリアクティブマッピングに直接依存している。 VLingNav(VLAモデル)を提案する。
論文参考訳（メタデータ） (2026-01-13T15:43:43Z)
EvolveNav: Self-Improving Embodied Reasoning for LLM-Based Vision-Language Navigation [111.0993686148283]
本稿では,EvolveNavと呼ばれるビジョンランゲージナビゲーションを向上するための,新たなSElf-imbodied embodied reasoningフレームワークを提案する。 EvolveNav は,(1) 形式化された CoT ラベルを用いたモデルトレーニング,(2) 自己表現的ポストトライニング,(2) モデルが自己強化 CoT ラベルとして独自の推論出力で反復的にトレーニングされ,監督の多様性を高めるための,形式化された CoT ラベルによるモデルトレーニング,の2つの段階で構成されている。
論文参考訳（メタデータ） (2025-06-02T11:28:32Z)
NavRAG: Generating User Demand Instructions for Embodied Navigation through Retrieval-Augmented LLM [55.79954652783797]
VLN(Vision-and-Language Navigation)は、エージェントを具現化するための重要なスキルであり、自然言語の指示に従って3D環境をナビゲートすることができる。従来の方法では、トラジェクトリ動画をステップバイステップでデータ拡張の指示に変換するが、そのような指示はユーザの通信スタイルとうまく一致しない。本稿では,VLNのユーザ要求命令を生成する検索拡張生成フレームワークであるNavRAGを提案する。
論文参考訳（メタデータ） (2025-02-16T14:17:36Z)
Navigation World Models [68.58459393846461]
本稿では,過去の観測とナビゲーション行動に基づいて,将来の視覚観測を予測できる制御可能な映像生成モデルを提案する。慣れ親しんだ環境では、NWMはナビゲーションの軌道をシミュレートし、目的を達成するかどうかを評価することで計画することができる。実験は、スクラッチからの軌道計画や、外部ポリシーからサンプリングされた軌道のランク付けにおいて、その効果を実証する。
論文参考訳（メタデータ） (2024-12-04T18:59:45Z)
TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。 MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文参考訳（メタデータ） (2024-11-25T14:27:55Z)
Guide-LLM: An Embodied LLM Agent and Text-Based Topological Map for Robotic Guidance of People with Visual Impairments [1.18749525824656]
Guide-LLMは、大きな屋内環境をナビゲートする際の視覚障害者(PVI)を支援するために設計されたテキストベースのエージェントである。我々のアプローチは,LLMがグローバルパスを計画できる新しいテキストベースのトポロジマップを特徴としている。シミュレーション実験は、PVIを誘導するシステムの有効性を実証し、その可能性を補助技術の重要な進歩として示している。
論文参考訳（メタデータ） (2024-10-28T01:58:21Z)
NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models [30.685419129265252]
我々は、VLN特化モデルとLLMに基づくナビゲーションパラダイムの分割を橋渡しする。我々は、効果的な行動予測とナビゲーション推論のために、LCMとナビゲーションポリシーネットワークを組み込む方法を利用する。
論文参考訳（メタデータ） (2024-07-17T07:44:26Z)
Affordances-Oriented Planning using Foundation Models for Continuous Vision-Language Navigation [64.84996994779443]
本稿では,連続視覚言語ナビゲーション(VLN)タスクのためのAffordances-Oriented Plannerを提案する。我々のAO-Plannerは、様々な基礎モデルを統合して、アベイランス指向の低レベルな動き計画とハイレベルな意思決定を実現する。挑戦的なR2R-CEデータセットとRxR-CEデータセットの実験は、AO-Plannerが最先端のゼロショットのパフォーマンスを達成したことを示している。
論文参考訳（メタデータ） (2024-07-08T12:52:46Z)
MC-GPT: Empowering Vision-and-Language Navigation with Memory Map and Reasoning Chains [4.941781282578696]
Vision-and-Language Navigation (VLN)タスクでは、エージェントは自然言語の指示に従って目的地に向かう必要がある。学習ベースのアプローチはタスクに対する主要な解決策だが、高いトレーニングコストと解釈可能性の欠如に悩まされている。近年、Large Language Models (LLMs) は強力な一般化能力のため、VLNにとって有望なツールとして登場した。
論文参考訳（メタデータ） (2024-05-17T08:33:27Z)
TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文参考訳（メタデータ） (2024-03-13T05:22:39Z)
NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文参考訳（メタデータ） (2024-03-12T07:27:02Z)
$A^2$Nav: Action-Aware Zero-Shot Robot Navigation by Exploiting Vision-and-Language Ability of Foundation Models [89.64729024399634]
本研究では,ゼロショット視覚言語ナビゲーション(ZS-VLN)の課題について検討する。通常、命令は複雑な文法構造を持ち、しばしば様々な行動記述を含む。これらのアクション要求を正しく理解し実行する方法は重要な問題であり、アノテーション付きデータがないため、さらに困難になる。
論文参考訳（メタデータ） (2023-08-15T19:01:19Z)
VELMA: Verbalization Embodiment of LLM Agents for Vision and Language Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。 VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文参考訳（メタデータ） (2023-07-12T11:08:24Z)
Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文参考訳（メタデータ） (2023-03-06T20:19:19Z)
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文参考訳（メタデータ） (2022-07-10T10:41:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。