論文の概要: Towards Accurate UAV Image Perception: Guiding Vision-Language Models with Stronger Task Prompts
- arxiv url: http://arxiv.org/abs/2512.07302v1
- Date: Mon, 08 Dec 2025 08:44:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.788934
- Title: Towards Accurate UAV Image Perception: Guiding Vision-Language Models with Stronger Task Prompts
- Title(参考訳): 高精度UAV画像認識に向けて:より強力なタスクプロンプトを用いた視覚言語モデルの誘導
- Authors: Mingning Guo, Mengwei Wu, Shaoxian Li, Haifeng Li, Chao Tao,
- Abstract要約: 本稿では,UAV画像認識におけるタスクプロンプト向上のための最初のエージェントフレームワークであるAerialVPを紹介する。
AerialVPは、UAV画像から多次元補助情報を積極的に抽出し、タスクプロンプトを強化する。
AerialSenseは、Aerial Visual Reasoning、Aerial Visual Question Answering、Aerial Visual Groundingタスクを含むUAVイメージ知覚のベンチマークである。
- 参考スコア(独自算出の注目度): 2.3160863001888914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing image perception methods based on VLMs generally follow a paradigm wherein models extract and analyze image content based on user-provided textual task prompts. However, such methods face limitations when applied to UAV imagery, which presents challenges like target confusion, scale variations, and complex backgrounds. These challenges arise because VLMs' understanding of image content depends on the semantic alignment between visual and textual tokens. When the task prompt is simplistic and the image content is complex, achieving effective alignment becomes difficult, limiting the model's ability to focus on task-relevant information. To address this issue, we introduce AerialVP, the first agent framework for task prompt enhancement in UAV image perception. AerialVP proactively extracts multi-dimensional auxiliary information from UAV images to enhance task prompts, overcoming the limitations of traditional VLM-based approaches. Specifically, the enhancement process includes three stages: (1) analyzing the task prompt to identify the task type and enhancement needs, (2) selecting appropriate tools from the tool repository, and (3) generating enhanced task prompts based on the analysis and selected tools. To evaluate AerialVP, we introduce AerialSense, a comprehensive benchmark for UAV image perception that includes Aerial Visual Reasoning, Aerial Visual Question Answering, and Aerial Visual Grounding tasks. AerialSense provides a standardized basis for evaluating model generalization and performance across diverse resolutions, lighting conditions, and both urban and natural scenes. Experimental results demonstrate that AerialVP significantly enhances task prompt guidance, leading to stable and substantial performance improvements in both open-source and proprietary VLMs. Our work will be available at https://github.com/lostwolves/AerialVP.
- Abstract(参考訳): 既存のVLMに基づく画像認識手法は、一般に、ユーザが提供するテキストタスクプロンプトに基づいて、画像コンテンツを抽出・分析するパラダイムに従っている。
しかし、このような手法はUAV画像に適用した場合の制限に直面し、ターゲットの混乱、スケールのバリエーション、複雑な背景などの課題が提示される。
これらの課題は、VLMによる画像内容の理解が視覚的トークンとテキストトークンのセマンティックアライメントに依存するためである。
タスクプロンプトが単純化され、画像内容が複雑になると、効果的なアライメントを達成することが難しくなり、タスク関連情報に集中する能力が制限される。
この問題に対処するため,UAV画像認識におけるタスクプロンプト強化のための最初のエージェントフレームワークであるAerialVPを紹介した。
AerialVPはUAV画像から多次元補助情報を積極的に抽出してタスクプロンプトを強化し、従来のVLMベースのアプローチの限界を克服する。
具体的には、(1)タスクのタイプと強化ニーズを特定するためのタスクプロンプトを分析すること、(2)ツールリポジトリから適切なツールを選択すること、(3)分析と選択されたツールに基づいて強化されたタスクプロンプトを生成すること、の3段階を含む。
AerialVPを評価するために、Aerial Visual Reasoning、Aerial Visual Question Answering、Aerial Visual Groundingタスクを含むUAV画像知覚のための包括的なベンチマークであるAerialSenseを紹介する。
AerialSenseは、様々な解像度、照明条件、都市と自然の両方でモデルの一般化と性能を評価するための標準化された基盤を提供する。
実験の結果,AerialVPはタスクプロンプト誘導を著しく向上させ,オープンソースのVLMとプロプライエタリなVLMの両方で安定かつ実質的な性能向上をもたらすことが示された。
私たちの仕事はhttps://github.com/lostwolves/AerialVPで公開されます。
関連論文リスト
- Toward Ambulatory Vision: Learning Visually-Grounded Active View Selection [26.020338338880034]
本稿では、現在の画像の視覚情報のみを用いて、最も情報性の高い次の視点を選択するタスクである、視覚的接地型アクティブビュー選択(VG-AVS)を紹介する。
提案手法は,視点選択に基づく強い質問応答性能を実現し,合成シーンや実シーンに頑健に一般化する。
論文 参考訳(メタデータ) (2025-12-15T12:04:26Z) - Training Multi-Image Vision Agents via End2End Reinforcement Learning [51.81337984526068]
我々は、エンドツーエンドの強化学習によって訓練されたオープンソースの視覚エージェントであるIMAgentを提案する。
マルチエージェントシステムを利用することで、困難かつ視覚的にリッチなマルチイメージQAペアを生成する。
我々は、視覚的反射と確認のための2つの特別なツールを開発し、モデルが積極的に画像コンテンツに注意を向けることを可能にする。
論文 参考訳(メタデータ) (2025-12-05T10:02:38Z) - Learning to See and Act: Task-Aware View Planning for Robotic Manipulation [88.37482534484627]
Task-Aware View Planning (TAVP)は、アクティブなビュープランニングとタスク固有の表現学習を統合するために設計されたフレームワークである。
提案したTAVPモデルは、最先端の固定ビューアプローチよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2025-08-07T09:21:20Z) - Enhanced Multimodal RAG-LLM for Accurate Visual Question Answering [10.505845766495128]
MLLM(Multimodal large language model)は、視覚とテキストのモダリティの統合において大きな進歩を遂げた。
マルチモーダル検索拡張生成(RAG)に基づく新しいフレームワークを提案する。
RAGは、画像内のオブジェクト認識、関係識別、空間的理解を強化するために構造化されたシーングラフを導入している。
論文 参考訳(メタデータ) (2024-12-30T13:16:08Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - Image2Sentence based Asymmetrical Zero-shot Composed Image Retrieval [92.13664084464514]
合成画像検索(CIR)の課題は,検索画像とユーザの意図を記述したテキストに基づいて画像を取得することである。
既存の手法は、CIRタスクにおける高度な大規模視覚言語(VL)モデルにおいて大きな進歩を遂げているが、それらは一般的に、モデルトレーニングのためのラベル付き三重項の欠如とリソース制限された環境への展開の困難という2つの大きな問題に悩まされている。
本稿では、VLモデルを利用して合成学習のためのラベルなし画像のみに依存する画像2Sentenceに基づく非対称ゼロショット合成画像検索(ISA)を提案する。
論文 参考訳(メタデータ) (2024-03-03T07:58:03Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Unifying Image Processing as Visual Prompting Question Answering [62.84955983910612]
画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。
伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。
本稿では,画像復元,画像強調,画像特徴抽出タスクを網羅する汎用画像処理モデルを提案する。
論文 参考訳(メタデータ) (2023-10-16T15:32:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。