論文の概要: UAV-VL-R1: Generalizing Vision-Language Models via Supervised Fine-Tuning and Multi-Stage GRPO for UAV Visual Reasoning
- arxiv url: http://arxiv.org/abs/2508.11196v1
- Date: Fri, 15 Aug 2025 04:06:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.736221
- Title: UAV-VL-R1: Generalizing Vision-Language Models via Supervised Fine-Tuning and Multi-Stage GRPO for UAV Visual Reasoning
- Title(参考訳): UAV-VL-R1:UAVビジュアル推論のための教師付き微調整と多段GRPOによる視覚言語モデルの一般化
- Authors: Jiajin Guan, Haibo Mei, Bonan Zhang, Dan Liu, Yuanshuang Fu, Yue Zhang,
- Abstract要約: 本稿では,UAV-VL-R1を提案する。
教師付き微調整(SFT)と多段階強化学習(RL)を組み合わせたハイブリッド手法を用いて訓練を行った。
我々は,UAV-VL-R1がQwen2-VL-2B-Instructベースラインよりも48.17%高いゼロショット精度を実現し,72Bスケールの派生モデルよりも優れていることを示した。
- 参考スコア(独自算出の注目度): 11.872945853854628
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in vision-language models (VLMs) have demonstrated strong generalization in natural image tasks. However, their performance often degrades on unmanned aerial vehicle (UAV)-based aerial imagery, which features high resolution, complex spatial semantics, and strict real-time constraints. These challenges limit the applicability of general-purpose VLMs to structured aerial reasoning tasks. To address these challenges, we propose UAV-VL-R1, a lightweight VLM explicitly designed for aerial visual reasoning. It is trained using a hybrid method that combines supervised fine-tuning (SFT) and multi-stage reinforcement learning (RL). We leverage the group relative policy optimization (GRPO) algorithm to promote structured and interpretable reasoning through rule-guided rewards and intra-group policy alignment. To support model training and evaluation, we introduce a high-resolution visual question answering dataset named HRVQA-VL, which consists of 50,019 annotated samples covering eight UAV-relevant reasoning tasks, including object counting, transportation recognition, and spatial scene inference. Experimental results show that UAV-VL-R1 achieves a 48.17% higher zero-shot accuracy than the Qwen2-VL-2B-Instruct baseline and even outperforms its 72B-scale variant, which is 36x larger, on multiple tasks. Ablation studies reveal that while SFT improves semantic alignment, it may reduce reasoning diversity in mathematical tasks. GRPO-based RL compensates for this limitation by enhancing logical flexibility and the robustness of inference. Additionally, UAV-VL-R1 requires only 3.9GB of memory under FP16 inference and can be quantized to 2.5GB with INT8, supporting real-time deployment on resource-constrained UAV platforms.
- Abstract(参考訳): 視覚言語モデル(VLM)の最近の進歩は、自然画像のタスクにおいて強力な一般化を示している。
しかし、その性能は、高解像度、複雑な空間意味論、厳密なリアルタイム制約を特徴とする無人航空機(UAV)ベースの空中画像に劣化することが多い。
これらの課題は、構造化された航空推論タスクに対する汎用VLMの適用性を制限する。
これらの課題に対処するため,UAV-VL-R1を提案する。
教師付き微調整(SFT)と多段階強化学習(RL)を組み合わせたハイブリッド手法を用いて訓練を行った。
我々は、グループ相対ポリシー最適化(GRPO)アルゴリズムを利用して、ルール誘導報酬とグループ内ポリシーアライメントを通じて、構造化および解釈可能な推論を促進する。
HRVQA-VLという高分解能な視覚質問応答データセットを導入し,対象数,移動認識,空間的シーン推論を含む,UAV関連8つの推論タスクをカバーする50,019個の注釈付きサンプルを作成した。
実験の結果、UAV-VL-R1はQwen2-VL-2B-Instructベースラインよりも48.17%高いゼロショット精度を達成し、また複数のタスクにおいて72Bスケールの派生機よりも優れていた。
アブレーション研究により、SFTはセマンティックアライメントを改善するが、数学的タスクにおける推論の多様性を減少させる可能性があることが明らかになった。
GRPOベースのRLはこの制限を補償し、論理的柔軟性と推論の堅牢性を高める。
加えて、UAV-VL-R1はFP16推論の下ではわずか3.9GBのメモリしか必要とせず、 INT8で2.5GBまで量子化でき、リソース制約のあるUAVプラットフォームへのリアルタイム展開をサポートする。
関連論文リスト
- LLM Meets the Sky: Heuristic Multi-Agent Reinforcement Learning for Secure Heterogeneous UAV Networks [57.27815890269697]
この研究は、エネルギー制約下での不均一なUAVネットワーク(HetUAVN)における機密率の最大化に焦点を当てている。
本稿では,Large Language Model (LLM) を用いたマルチエージェント学習手法を提案する。
その結果,本手法は機密性やエネルギー効率において,既存のベースラインよりも優れていた。
論文 参考訳(メタデータ) (2025-07-23T04:22:57Z) - VL-GenRM: Enhancing Vision-Language Verification via Vision Experts and Iterative Training [23.391643634478587]
Vision-Language Reward Model (VL-RM) は、構造化されたフィードバックを提供することでVLモデルを整列させる鍵となる。
高品質のトレーニングデータがすでに強力なVLモデルに依存しているため、ブートストラップジレンマが発生する。
本稿では,視覚の専門家,思考の合理性,およびMarginベースのリジェクションサンプリングを活用した反復的トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-16T18:10:51Z) - SVQA-R1: Reinforcing Spatial Reasoning in MLLMs via View-Consistent Reward Optimization [57.484274282231226]
本稿では,R1スタイルのトレーニングを空間VQAに拡張する最初のフレームワークであるSVQA-R1を提案する。
特に,オブジェクト間の空間的関係を摂動させることで,視点に一貫性のある報酬を構成する新しいグループワイドRL戦略であるSpatial-GRPOを紹介する。
我々のモデルSVQA-R1は空間的VQAベンチマークの精度を劇的に向上させるだけでなく、教師付き微調整データを使用しなくても解釈可能な推論経路を示す。
論文 参考訳(メタデータ) (2025-06-02T06:58:43Z) - FlightGPT: Towards Generalizable and Interpretable UAV Vision-and-Language Navigation with Vision-Language Models [11.286340789648813]
無人航空機 (UAV) ビジョン・アンド・ランゲージ・ナビゲーション (VLN) は、災害対応、物流提供、都市検査などの用途に欠かせない。
本研究では,VLM(Vision-Language Models)上に構築された,強力なマルチモーダル認識機能を備えたUAV VLNフレームワークであるFlightGPTを提案する。
その結果、FlightGPTはすべてのシナリオで最先端のパフォーマンスを実現しており、未確認環境において最強のベースラインよりも9.22%高い成功率を示している。
論文 参考訳(メタデータ) (2025-05-19T08:21:20Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [63.27511432647797]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models [66.56298924208319]
視覚言語生成報酬モデル(VL-GenRM)は、マルチモーダルAIシステムの調整と評価において重要な役割を果たす。
現在の評価方法は、主に従来のタスクからのAIアノテーション付き好みラベルに依存している。
VL-RewardBenchは、一般的なマルチモーダルクエリ、視覚幻覚検出、複雑な推論タスクにまたがる包括的なベンチマークである。
論文 参考訳(メタデータ) (2024-11-26T14:08:34Z) - An Empirical Study of Training End-to-End Vision-and-Language
Transformers [50.23532518166621]
我々はMETER(textbfMultimodal textbfEnd-to-end textbfTransformtextbfER)を提案する。
具体的には、視覚エンコーダ(例えば、CLIP-ViT、Swin変換器)、テキストエンコーダ(例えば、RoBERTa、DeBERTa)、マルチモーダルフュージョン(例えば、マージアテンション対共振器)である。
論文 参考訳(メタデータ) (2021-11-03T17:55:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。