論文の概要: DVGBench: Implicit-to-Explicit Visual Grounding Benchmark in UAV Imagery with Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2601.00998v1
- Date: Fri, 02 Jan 2026 22:42:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.931027
- Title: DVGBench: Implicit-to-Explicit Visual Grounding Benchmark in UAV Imagery with Large Vision-Language Models
- Title(参考訳): DVGBench:大型ビジョンランゲージモデルを用いたUAV画像における暗黙の視覚的グラウンドベンチマーク
- Authors: Yue Zhou, Jue Chen, Zilun Zhang, Penghui Huang, Ran Ding, Zhentao Zou, PengFei Gao, Yuchen Wei, Ke Li, Xue Yang, Xue Jiang, Hongxin Yang, Jonathan Li,
- Abstract要約: この記事では、ドローンの高品質な暗黙VGベンチマークであるDVGBenchを紹介します。
トラフィック、災害、セキュリティ、スポーツ、社会活動、生産活動の6つの主要なアプリケーションシナリオをカバーする。
我々は,新しいI2E-CoT(Implicit-to-Explicit Chain-of-Thought)を強化学習パラダイムに統合したLVLMであるDroneVG-R1を設計する。
- 参考スコア(独自算出の注目度): 30.675021628170114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Remote sensing (RS) large vision-language models (LVLMs) have shown strong promise across visual grounding (VG) tasks. However, existing RS VG datasets predominantly rely on explicit referring expressions-such as relative position, relative size, and color cues-thereby constraining performance on implicit VG tasks that require scenario-specific domain knowledge. This article introduces DVGBench, a high-quality implicit VG benchmark for drones, covering six major application scenarios: traffic, disaster, security, sport, social activity, and productive activity. Each object provides both explicit and implicit queries. Based on the dataset, we design DroneVG-R1, an LVLM that integrates the novel Implicit-to-Explicit Chain-of-Thought (I2E-CoT) within a reinforcement learning paradigm. This enables the model to take advantage of scene-specific expertise, converting implicit references into explicit ones and thus reducing grounding difficulty. Finally, an evaluation of mainstream models on both explicit and implicit VG tasks reveals substantial limitations in their reasoning capabilities. These findings provide actionable insights for advancing the reasoning capacity of LVLMs for drone-based agents. The code and datasets will be released at https://github.com/zytx121/DVGBench
- Abstract(参考訳): リモートセンシング (RS) 大規模視覚言語モデル (LVLM) は視覚的接地 (VG) タスクに強い可能性を示している。
しかし、既存のRS VGデータセットは主に、シナリオ固有のドメイン知識を必要とする暗黙的なVGタスクにおいて、相対的な位置、相対的なサイズ、カラーキューといった明示的な参照表現に依存している。
この記事では、DVGBenchを紹介します。DVGBenchは、ドローンのための高品質な暗黙のVGベンチマークで、トラフィック、災害、セキュリティ、スポーツ、ソーシャルアクティビティ、生産活動の6つの主要なアプリケーションシナリオをカバーしています。
各オブジェクトは明示的なクエリと暗黙的なクエリの両方を提供します。
このデータセットに基づいて,I2E-CoT(Implicit-to-Explicit Chain-of-Thought)を強化学習パラダイムに統合したLVLMであるDroneVG-R1を設計する。
これにより、暗黙の参照を明示的な参照に変換することによって、シーン固有の専門知識を活用することが可能になる。
最後に、明示的なVGタスクと暗黙的なVGタスクの両方における主流モデルの評価は、その推論能力のかなりの制限を明らかにしている。
これらの知見は、ドローンをベースとしたエージェントのLVLMの推論能力を向上させるための実用的な洞察を与える。
コードとデータセットはhttps://github.com/zytx121/DVGBenchで公開される。
関連論文リスト
- V-Attack: Targeting Disentangled Value Features for Controllable Adversarial Attacks on LVLMs [66.81402538540458]
本稿では,局所的セマンティックアタックの新しい手法であるV-Attackを提案する。
V-Attackは、最先端の手法よりも平均して36%の攻撃成功率を改善する。
論文 参考訳(メタデータ) (2025-11-25T11:51:17Z) - PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks [51.31903029903904]
SGG(Scene Graphs Generation)では、オブジェクトノードの形式で視覚入力から構造化された表現を抽出し、それらを接続する。
PRISM-0はゼロショットオープン語彙SGGのためのフレームワークで、ボトムアップアプローチで基礎モデルをブートストラップする。
PRIMS-0は、イメージキャプションやSentence-to-Graph Retrievalのような下流タスクを改善する意味のあるグラフを生成する。
論文 参考訳(メタデータ) (2025-04-01T14:29:51Z) - MB-ORES: A Multi-Branch Object Reasoner for Visual Grounding in Remote Sensing [0.08192907805418585]
本稿では,オブジェクト検出(OD)と視覚的接地(VG)を統合した統合フレームワークを提案する。
本モデルは,OPT-RSVGおよびDIOR-RSVGデータセットにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2025-03-31T15:36:41Z) - Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR [51.72751335574947]
Visual Commonsense Reasoning (VCR)は、視覚的なシーンに対する質問応答の背後にある説明的推論を要求する。
ベンチマークデータセットの進歩は、Vision-Language Transformers(VL Transformers)の最近の進歩に大きく起因している。
本稿では、VLトランスフォーマーは、VCRの鍵となる視覚的コモンセンスを示さないことを仮定する。
論文 参考訳(メタデータ) (2024-05-27T08:26:58Z) - Beyond Literal Descriptions: Understanding and Locating Open-World Objects Aligned with Human Intentions [36.851214751652996]
本稿では、意図駆動型視覚接地(IVG)タスクを提案し、インテンションVGと呼ばれる大規模IVGデータセットを自由形式の意図表現で構築する。
基礎課題を実現するために,現実的なエージェントが様々なシナリオの特定の目標を移動して見つけ出す必要があることを考えると,我々のIVGタスクと意図VGデータセットは,多シナリオ認識と自我中心の視点の両方において重要な特性を考慮に入れている。
論文 参考訳(メタデータ) (2024-02-17T12:42:14Z) - Enhancing Visual Grounding and Generalization: A Multi-Task Cycle Training Approach for Vision-Language Models [41.64717254672843]
視覚接地は多モード視覚言語モデルにおいて重要な位置を占める。
本稿では,VGのマルチタスクをサポートする大規模なマルチモーダリティモデルであるViLaMを提案する。
ViLaMは幅広い命令を拡張し、一般化と相互作用ポテンシャルを大幅に強化する。
論文 参考訳(メタデータ) (2023-11-21T03:40:09Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Iterative Robust Visual Grounding with Masked Reference based
Centerpoint Supervision [24.90534567531536]
本稿では,Masked Reference Based Centerpoint Supervision (MRCS) を用いたIR-VG (Iterative Robust Visual Grounding) フレームワークを提案する。
提案するフレームワークは,5つの通常のVGデータセットと2つの新たに構築された堅牢なVGデータセットで評価される。
論文 参考訳(メタデータ) (2023-07-23T17:55:24Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Fine-Grained Scene Graph Generation with Data Transfer [127.17675443137064]
シーングラフ生成(SGG)は、画像中の三つ子(オブジェクト、述語、オブジェクト)を抽出することを目的としている。
最近の研究は、SGGを着実に進歩させ、高レベルの視覚と言語理解に有用なツールを提供している。
そこで本研究では,プレー・アンド・プラグ方式で適用可能で,約1,807の述語クラスを持つ大規模SGGに拡張可能な,内部・外部データ転送(IETrans)手法を提案する。
論文 参考訳(メタデータ) (2022-03-22T12:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。