論文の概要: Towards Accurate UAV Image Perception: Guiding Vision-Language Models with Stronger Task Prompts
- arxiv url: http://arxiv.org/abs/2512.07302v1
- Date: Mon, 08 Dec 2025 08:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.788934
- Title: Towards Accurate UAV Image Perception: Guiding Vision-Language Models with Stronger Task Prompts
- Title(参考訳): 高精度UAV画像認識に向けて:より強力なタスクプロンプトを用いた視覚言語モデルの誘導
- Authors: Mingning Guo, Mengwei Wu, Shaoxian Li, Haifeng Li, Chao Tao,
- Abstract要約: 本稿では,UAV画像認識におけるタスクプロンプト向上のための最初のエージェントフレームワークであるAerialVPを紹介する。
AerialVPは、UAV画像から多次元補助情報を積極的に抽出し、タスクプロンプトを強化する。
AerialSenseは、Aerial Visual Reasoning、Aerial Visual Question Answering、Aerial Visual Groundingタスクを含むUAVイメージ知覚のベンチマークである。
- 参考スコア(独自算出の注目度): 2.3160863001888914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing image perception methods based on VLMs generally follow a paradigm wherein models extract and analyze image content based on user-provided textual task prompts. However, such methods face limitations when applied to UAV imagery, which presents challenges like target confusion, scale variations, and complex backgrounds. These challenges arise because VLMs' understanding of image content depends on the semantic alignment between visual and textual tokens. When the task prompt is simplistic and the image content is complex, achieving effective alignment becomes difficult, limiting the model's ability to focus on task-relevant information. To address this issue, we introduce AerialVP, the first agent framework for task prompt enhancement in UAV image perception. AerialVP proactively extracts multi-dimensional auxiliary information from UAV images to enhance task prompts, overcoming the limitations of traditional VLM-based approaches. Specifically, the enhancement process includes three stages: (1) analyzing the task prompt to identify the task type and enhancement needs, (2) selecting appropriate tools from the tool repository, and (3) generating enhanced task prompts based on the analysis and selected tools. To evaluate AerialVP, we introduce AerialSense, a comprehensive benchmark for UAV image perception that includes Aerial Visual Reasoning, Aerial Visual Question Answering, and Aerial Visual Grounding tasks. AerialSense provides a standardized basis for evaluating model generalization and performance across diverse resolutions, lighting conditions, and both urban and natural scenes. Experimental results demonstrate that AerialVP significantly enhances task prompt guidance, leading to stable and substantial performance improvements in both open-source and proprietary VLMs. Our work will be available at https://github.com/lostwolves/AerialVP.
- Abstract(参考訳): 既存のVLMに基づく画像認識手法は、一般に、ユーザが提供するテキストタスクプロンプトに基づいて、画像コンテンツを抽出・分析するパラダイムに従っている。
しかし、このような手法はUAV画像に適用した場合の制限に直面し、ターゲットの混乱、スケールのバリエーション、複雑な背景などの課題が提示される。
これらの課題は、VLMによる画像内容の理解が視覚的トークンとテキストトークンのセマンティックアライメントに依存するためである。
タスクプロンプトが単純化され、画像内容が複雑になると、効果的なアライメントを達成することが難しくなり、タスク関連情報に集中する能力が制限される。
この問題に対処するため,UAV画像認識におけるタスクプロンプト強化のための最初のエージェントフレームワークであるAerialVPを紹介した。
AerialVPはUAV画像から多次元補助情報を積極的に抽出してタスクプロンプトを強化し、従来のVLMベースのアプローチの限界を克服する。
具体的には、(1)タスクのタイプと強化ニーズを特定するためのタスクプロンプトを分析すること、(2)ツールリポジトリから適切なツールを選択すること、(3)分析と選択されたツールに基づいて強化されたタスクプロンプトを生成すること、の3段階を含む。
AerialVPを評価するために、Aerial Visual Reasoning、Aerial Visual Question Answering、Aerial Visual Groundingタスクを含むUAV画像知覚のための包括的なベンチマークであるAerialSenseを紹介する。
AerialSenseは、様々な解像度、照明条件、都市と自然の両方でモデルの一般化と性能を評価するための標準化された基盤を提供する。
実験の結果,AerialVPはタスクプロンプト誘導を著しく向上させ,オープンソースのVLMとプロプライエタリなVLMの両方で安定かつ実質的な性能向上をもたらすことが示された。
私たちの仕事はhttps://github.com/lostwolves/AerialVPで公開されます。
関連論文リスト
- Learning to See and Act: Task-Aware View Planning for Robotic Manipulation [88.37482534484627]
Task-Aware View Planning (TAVP)は、アクティブなビュープランニングとタスク固有の表現学習を統合するために設計されたフレームワークである。
提案したTAVPモデルは、最先端の固定ビューアプローチよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-08-07T09:21:20Z) - Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering [10.505845766495128]
MLLM(Multimodal large language model)は、視覚とテキストのモダリティの統合において大きな進歩を遂げた。
マルチモーダル検索拡張生成(RAG)に基づく新しいフレームワークを提案する。
RAGは、画像内のオブジェクト認識、関係識別、空間的理解を強化するために構造化されたシーングラフを導入している。
論文 参考訳(メタデータ) (2024-12-30T13:16:08Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Unifying Image Processing as Visual Prompting Question Answering [62.84955983910612]
画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。
伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。
本稿では,画像復元,画像強調,画像特徴抽出タスクを網羅する汎用画像処理モデルを提案する。
論文 参考訳(メタデータ) (2023-10-16T15:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。