論文の概要: Navigation-GPT: A Robust and Adaptive Framework Utilizing Large Language Models for Navigation Applications
- arxiv url: http://arxiv.org/abs/2502.16402v1
- Date: Sun, 23 Feb 2025 01:41:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:54:34.440566
- Title: Navigation-GPT: A Robust and Adaptive Framework Utilizing Large Language Models for Navigation Applications
- Title(参考訳): Navigation-GPT: ナビゲーションアプリケーションのための大規模言語モデルを活用したロバストで適応的なフレームワーク
- Authors: Feng Ma, Xiu-min Wang, Chen Chen, Xiao-bin Xu, Xin-ping Yan,
- Abstract要約: 既存のナビゲーション決定支援システムは、未定義のシナリオを扱う場合、しばしば性能が良くない。
この問題に対処するためのLLMアプリケーションのためのデュアルコアフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.990141986853289
- License:
- Abstract: Existing navigation decision support systems often perform poorly when handling non-predefined navigation scenarios. Leveraging the generalization capabilities of large language model (LLM) in handling unknown scenarios, this research proposes a dual-core framework for LLM applications to address this issue. Firstly, through ReAct-based prompt engineering, a larger LLM core decomposes intricate navigation tasks into manageable sub-tasks, which autonomously invoke corresponding external tools to gather relevant information, using this feedback to mitigate the risk of LLM hallucinations. Subsequently, a fine-tuned and compact LLM core, acting like a first-mate is designed to process such information and unstructured external data, then to generates context-aware recommendations, ultimately delivering lookout insights and navigation hints that adhere to the International Regulations for Preventing Collisions at Sea (COLREGs) and other rules. Extensive experiments demonstrate the proposed framework not only excels in traditional ship collision avoidance tasks but also adapts effectively to unstructured, non-predefined, and unpredictable scenarios. A comparative analysis with DeepSeek-R1, GPT-4o and other SOTA models highlights the efficacy and rationality of the proposed framework. This research bridges the gap between conventional navigation systems and LLMs, offering a framework to enhance safety and operational efficiency across diverse navigation applications.
- Abstract(参考訳): 既存のナビゲーション決定支援システムは、未定義のナビゲーションシナリオを扱う場合、しばしば性能が良くない。
未知のシナリオを扱う上で,LLMの一般化機能を活用することで,この問題に対処するLLMアプリケーションのためのデュアルコアフレームワークを提案する。
まず、ReActベースのプロンプトエンジニアリングを通じて、より大きなLLMコアが複雑なナビゲーションタスクを管理可能なサブタスクに分解し、対応する外部ツールを自律的に呼び出して関連情報を収集する。
その後、ファーストメイトのように機能する微調整されたコンパクトなLCMコアは、そのような情報や構造化されていない外部データを処理し、コンテキスト対応のレコメンデーションを生成し、最終的に、国際海衝突防止規則(COLREG)やその他の規則に準拠したルックアウト洞察とナビゲーションヒントを提供するように設計されている。
大規模な実験では、提案されたフレームワークが従来の船衝突回避タスクに優れるだけでなく、非構造化、非定義、予測不可能なシナリオに効果的に適応することを示した。
DeepSeek-R1、GPT-4oや他のSOTAモデルとの比較分析では、提案フレームワークの有効性と合理性を強調している。
この研究は従来のナビゲーションシステムとLCMのギャップを埋め、多様なナビゲーションアプリケーション間の安全性と運用効率を高めるためのフレームワークを提供する。
関連論文リスト
- Mem2Ego: Empowering Vision-Language Models with Global-to-Ego Memory for Long-Horizon Embodied Navigation [35.71602601385161]
本稿では,視覚言語モデル(VLM)に基づくナビゲーションフレームワークを提案する。
提案手法は,長期タスクにおける空間的推論と意思決定を促進する。
実験の結果,提案手法は従来のオブジェクトナビゲーションタスクの手法を超越していることがわかった。
論文 参考訳(メタデータ) (2025-02-20T04:41:40Z) - OVER-NAV: Elevating Iterative Vision-and-Language Navigation with Open-Vocabulary Detection and StructurEd Representation [96.46961207887722]
OVER-NAVは、現在のIVLN技術を超えることを目指している。
解釈されたナビゲーションデータを完全に活用するために、構造化された表現、コード化されたOmnigraphを導入する。
論文 参考訳(メタデータ) (2024-03-26T02:34:48Z) - TINA: Think, Interaction, and Action Framework for Zero-Shot Vision Language Navigation [11.591176410027224]
本稿では,Large Language Models(LLM)に基づく視覚言語ナビゲーション(VLN)エージェントを提案する。
環境認識におけるLLMの欠点を補うための思考・相互作用・行動の枠組みを提案する。
また,本手法は教師付き学習手法よりも優れ,ゼロショットナビゲーションの有効性を強調した。
論文 参考訳(メタデータ) (2024-03-13T05:22:39Z) - NavCoT: Boosting LLM-Based Vision-and-Language Navigation via Learning
Disentangled Reasoning [101.56342075720588]
Embodied AIの重要な研究課題であるVision-and-Language Navigation (VLN)は、自然言語の指示に従って複雑な3D環境をナビゲートするために、エンボディエージェントを必要とする。
近年の研究では、ナビゲーションの推論精度と解釈可能性を改善することにより、VLNにおける大きな言語モデル(LLM)の有望な能力を強調している。
本稿では,自己誘導型ナビゲーション決定を実現するために,パラメータ効率の高いドメイン内トレーニングを実現する,Navigational Chain-of-Thought (NavCoT) という新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-03-12T07:27:02Z) - How Secure Are Large Language Models (LLMs) for Navigation in Urban
Environments? [16.45529092831176]
本稿では,Large Language Models(LLM)に基づくナビゲーションシステムにおける脆弱性の探索の先駆者となる。
本稿では,従来のナビゲーションプロンプトに勾配由来の接尾辞を付加することにより,LSMに基づくナビゲーションモデルを操作する新しいナビゲーション・プロンプト・サフィックス(NPS)アタックを提案する。
本研究は,NPSアタックの汎用性と転送可能性を強調し,LLMナビゲーションシステムにおけるセキュリティ強化の必要性を強調した。
論文 参考訳(メタデータ) (2024-02-14T19:45:17Z) - LanguageMPC: Large Language Models as Decision Makers for Autonomous
Driving [87.1164964709168]
この作業では、複雑な自律運転シナリオの意思決定コンポーネントとして、Large Language Models(LLM)を採用している。
大規模実験により,提案手法は単車載タスクのベースラインアプローチを一貫して超えるだけでなく,複数車載コーディネートにおいても複雑な運転動作の処理にも有効であることが示された。
論文 参考訳(メタデータ) (2023-10-04T17:59:49Z) - NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large
Language Models [17.495162643127003]
我々は,複雑なエンボディシーンにおけるGPTモデルの推論能力を明らかにするために,NavGPTを導入した。
NavGPTは、視覚的な観察、ナビゲーション履歴、将来の探索可能な方向のテキスト記述を入力として、エージェントの現在の状態を推論する。
本研究では,NavGPTが経路に沿った観察や行動から高品質なナビゲーション命令を生成可能であることを示す。
論文 参考訳(メタデータ) (2023-05-26T14:41:06Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - Visual-Language Navigation Pretraining via Prompt-based Environmental
Self-exploration [83.96729205383501]
本稿では,言語埋め込みの高速適応を実現するために,プロンプトベースの学習を導入する。
我々のモデルは、VLNやREVERIEを含む多様な視覚言語ナビゲーションタスクに適応することができる。
論文 参考訳(メタデータ) (2022-03-08T11:01:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。