論文の概要: FlightGPT: Towards Generalizable and Interpretable UAV Vision-and-Language Navigation with Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.12835v1
- Date: Mon, 19 May 2025 08:21:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.4823
- Title: FlightGPT: Towards Generalizable and Interpretable UAV Vision-and-Language Navigation with Vision-Language Models
- Title(参考訳): FlightGPT:ビジョン・ランゲージモデルによるUAVビジョン・ランゲージナビゲーションの一般化と解釈に向けて
- Authors: Hengxing Cai, Jinhan Dong, Jingjun Tan, Jingcheng Deng, Sihang Li, Zhifeng Gao, Haidong Wang, Zicheng Su, Agachai Sumalee, Renxin Zhong,
- Abstract要約: 無人航空機 (UAV) ビジョン・アンド・ランゲージ・ナビゲーション (VLN) は、災害対応、物流提供、都市検査などの用途に欠かせない。
本研究では,VLM(Vision-Language Models)上に構築された,強力なマルチモーダル認識機能を備えたUAV VLNフレームワークであるFlightGPTを提案する。
その結果、FlightGPTはすべてのシナリオで最先端のパフォーマンスを実現しており、未確認環境において最強のベースラインよりも9.22%高い成功率を示している。
- 参考スコア(独自算出の注目度): 11.286340789648813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmanned Aerial Vehicle (UAV) Vision-and-Language Navigation (VLN) is vital for applications such as disaster response, logistics delivery, and urban inspection. However, existing methods often struggle with insufficient multimodal fusion, weak generalization, and poor interpretability. To address these challenges, we propose FlightGPT, a novel UAV VLN framework built upon Vision-Language Models (VLMs) with powerful multimodal perception capabilities. We design a two-stage training pipeline: first, Supervised Fine-Tuning (SFT) using high-quality demonstrations to improve initialization and structured reasoning; then, Group Relative Policy Optimization (GRPO) algorithm, guided by a composite reward that considers goal accuracy, reasoning quality, and format compliance, to enhance generalization and adaptability. Furthermore, FlightGPT introduces a Chain-of-Thought (CoT)-based reasoning mechanism to improve decision interpretability. Extensive experiments on the city-scale dataset CityNav demonstrate that FlightGPT achieves state-of-the-art performance across all scenarios, with a 9.22\% higher success rate than the strongest baseline in unseen environments. Our implementation is publicly available.
- Abstract(参考訳): 無人航空機 (UAV) ビジョン・アンド・ランゲージ・ナビゲーション (VLN) は、災害対応、物流提供、都市検査などの用途に欠かせない。
しかし、既存の手法は、不十分なマルチモーダル融合、弱い一般化、弱い解釈可能性に苦しむことが多い。
これらの課題に対処するために,VLM(Vision-Language Models)上に構築された,強力なマルチモーダル認識機能を備えたUAV VLNフレームワークであるFlightGPTを提案する。
まず、高品質な実演を用いて、初期化と構造化推論を改善するための2段階の訓練パイプラインを設計し、次に、目標精度、推論品質、フォーマットコンプライアンスを考慮した複合報酬によって導かれるグループ相対政策最適化(GRPO)アルゴリズムを用いて、一般化と適応性を向上させる。
さらに、FlightGPTは、意思決定の解釈性を改善するために、CoT(Chain-of-Thought)ベースの推論メカニズムを導入している。
都市規模データセットCityNavの大規模な実験では、FlightGPTはすべてのシナリオで最先端のパフォーマンスを達成し、目に見えない環境で最強のベースラインよりも9.22倍の成功率を達成している。
私たちの実装は公開されています。
関連論文リスト
- FlexVLN: Flexible Adaptation for Diverse Vision-and-Language Navigation Tasks [13.969116430006215]
視覚・言語ナビゲーション(VLN)の革新的階層的アプローチであるFlexVLNを提案する。
教師付き学習ベースのインストラクションフォロワのナビゲーション能力とLLM Plannerの堅牢な一般化能力を統合する。
一般化能力を評価するために,REVERIE,SOON,CVDN-targetをドメイン外のデータセットとみなす。
論文 参考訳(メタデータ) (2025-03-18T06:58:41Z) - World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning [60.100794160682646]
そこで本稿では,嗜好学習による状態予測と行動選択を協調的に最適化する新たな学習フレームワークを提案する。
人間のアノテーションを使わずに軌道や段階的な選好データを自動的に収集するために,試行錯誤による広範囲な探索のための木探索機構を導入する。
提案手法は,Qwen2-VL (7B), LLaVA-1.6 (7B), LLaMA-3.2 (11B) に適用した場合, 既存の手法と GPT-4o を著しく上回っている。
論文 参考訳(メタデータ) (2025-03-13T15:49:56Z) - Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments [10.953629652228024]
VLN(Vision-and-Language Navigation)エージェントは、時系列の視覚観察とそれに対応する指示を関連付け、意思決定を行う。
本稿では,人間中心の指示と低地視野の四足歩行ロボットとのミスマッチに対処する。
この問題を軽減するために,地上レベルの視点ナビゲーション(GVNav)手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T10:30:40Z) - AlphaMaze: Enhancing Large Language Models' Spatial Intelligence via GRPO [0.0]
大きな言語モデル(LLM)は、言語処理において印象的な能力を示してきたが、視覚的な空間的推論を必要とするタスクにしばしば苦労している。
迷路ナビゲーションのための視覚的推論能力を備えた標準LLMの2段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-20T16:05:18Z) - Generative Planning with 3D-vision Language Pre-training for End-to-End Autonomous Driving [20.33096710167997]
GPVLという名前の3次元言語事前学習モデルによる生成計画がエンドツーエンドの自動運転のために提案されている。
クロスモーダル言語モデルを導入し、総合的な駆動決定と微粒な軌跡を生成する。
GPVLの効果的で堅牢で効率的な性能は、将来の自動運転システムの実用化に不可欠であると考えられている。
論文 参考訳(メタデータ) (2025-01-15T15:20:46Z) - Delving into Multimodal Prompting for Fine-grained Visual Classification [57.12570556836394]
細粒度視覚分類(FGVC)は、より広いカテゴリーの細分化を分類する。
事前学習型視覚言語モデルの最近の進歩は、様々なハイレベル視覚タスクにおいて顕著な性能を示している。
対照的な言語画像サブカテゴリ(CLIP)モデルに基づいて,MP-FGVCと呼ばれる新しいマルチモーダルプロンプトソリューションを提案する。
論文 参考訳(メタデータ) (2023-09-16T07:30:52Z) - Divert More Attention to Vision-Language Object Tracking [87.31882921111048]
大規模な視覚言語アノテートビデオと非効果的な視覚言語対話学習が欠如していることは、トラッキングのためのより効果的な視覚言語表現の設計を動機づけている、と我々は主張する。
本稿では,まず,6つの人気追跡ベンチマークで動画をデコレートする属性アノテーション戦略を提案する。
次に,非対称なアーキテクチャ探索とモダリティミキサー(ModaMixer)を提案する,統一適応型VL表現の学習によるトラッキング向上のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-19T15:22:06Z) - BEVBert: Multimodal Map Pre-training for Language-guided Navigation [75.23388288113817]
視覚・言語ナビゲーション(VLN)における空間認識型マップベース事前学習パラダイムを提案する。
我々は,グローバルなトポロジカルマップにおけるナビゲーション依存性をモデル化しながら,不完全な観測を明示的に集約し,重複を取り除くための局所距離マップを構築した。
ハイブリッドマップをベースとして,マルチモーダルマップ表現を学習するための事前学習フレームワークを考案し,空間認識型クロスモーダル推論を強化し,言語誘導ナビゲーションの目標を導出する。
論文 参考訳(メタデータ) (2022-12-08T16:27:54Z) - Think Global, Act Local: Dual-scale Graph Transformer for
Vision-and-Language Navigation [87.03299519917019]
本稿では,2次元グラフ変換器 (DUET) を提案する。
我々は,グローバルな行動空間における効率的な探索を可能にするために,トポロジカルマップをオンザフライで構築する。
提案手法であるDUETは、目標指向の視覚・言語ナビゲーションベンチマークにおいて最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-02-23T19:06:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。