論文の概要: ProVG: Progressive Visual Grounding via Language Decoupling for Remote Sensing Imagery
- arxiv url: http://arxiv.org/abs/2604.01893v1
- Date: Thu, 02 Apr 2026 10:59:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.695153
- Title: ProVG: Progressive Visual Grounding via Language Decoupling for Remote Sensing Imagery
- Title(参考訳): ProVG: リモートセンシングのための言語デカップリングによるプログレッシブなビジュアルグラウンド
- Authors: Ke Li, Ting Wang, Di Wang, Yongshan Zhu, Yiming Zhang, Tao Lei, Quan Wang,
- Abstract要約: リモートセンシングビジュアルグラウンドティングは、自然言語表現によるリモートセンシング画像中のオブジェクトのローカライズを目的としている。
言語表現をグローバルな文脈,空間関係,オブジェクト属性に分解することで,局所化の精度を向上させる新しいRSVGフレームワークである textbfProVG を提案する。
ProVGは既存のメソッドを一貫して上回り、新しい最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 20.725910735285762
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing visual grounding (RSVG) aims to localize objects in remote sensing imagery according to natural language expressions. Previous methods typically rely on sentence-level vision-language alignment, which struggles to exploit fine-grained linguistic cues, such as \textit{spatial relations} and \textit{object attributes}, that are crucial for distinguishing objects with similar characteristics. Importantly, these cues play distinct roles across different grounding stages and should be leveraged accordingly to provide more explicit guidance. In this work, we propose \textbf{ProVG}, a novel RSVG framework that improves localization accuracy by decoupling language expressions into global context, spatial relations, and object attributes. To integrate these linguistic cues, ProVG employs a simple yet effective progressive cross-modal modulator, which dynamically modulates visual attention through a \textit{survey-locate-verify} scheme, enabling coarse-to-fine vision-language alignment. In addition, ProVG incorporates a cross-scale fusion module to mitigate the large-scale variations in remote sensing imagery, along with a language-guided calibration decoder to refine cross-modal alignment during prediction. A unified multi-task head further enables ProVG to support both referring expression comprehension and segmentation tasks. Extensive experiments on two benchmarks, \textit{i.e.}, RRSIS-D and RISBench, demonstrate that ProVG consistently outperforms existing methods, achieving new state-of-the-art performance.
- Abstract(参考訳): リモートセンシング視覚グラウンドティング(RSVG)は,物体を自然言語の表現に従ってリモートセンシング画像に局在させることを目的としている。
従来の手法は、典型的には文レベルの視覚言語アライメント(英語版)に依存しており、類似した特徴を持つ物体を区別するために不可欠である \textit{spatial relations} や \textit{object attribute} のような、きめ細かい言語的手がかりを利用するのに苦労している。
重要なことは、これらのキューは異なる接地ステージで異なる役割を担い、より明確なガイダンスを提供するために、それに従って活用されるべきである。
本研究では,言語表現をグローバルな文脈,空間関係,オブジェクト属性に分解することで,局所化の精度を向上させる新しい RSVG フレームワークである \textbf{ProVG} を提案する。
これらの言語的手がかりを統合するために、ProVGは単純だが効果的なプログレッシブ・モーダル・モジュレータを用いており、これは \textit{survey-locate-verify} スキームによって視覚的注意を動的に変調し、粗い視覚言語アライメントを可能にする。
さらに、ProVGには、リモートセンシング画像の大規模なバリエーションを軽減するために、クロススケールフュージョンモジュールと、予測中にクロスモーダルアライメントを洗練するための言語誘導キャリブレーションデコーダが組み込まれている。
統一されたマルチタスクヘッドにより、ProVGは参照式理解とセグメンテーションタスクの両方をサポートすることができる。
2つのベンチマーク(textit{i.e.}, RRSIS-D, RISBench)の大規模な実験は、ProVGが既存の手法を一貫して上回り、新しい最先端性能を実現することを示した。
関連論文リスト
- GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning [8.819428500071007]
視覚言語事前学習モデルは、自然言語によるリモートセンシング画像のブリッジにおいて大きな進歩を遂げている。
リモートセンシングタスクにおける微粒なアライメントを実現する統合フレームワークGeoAlignCLIPを提案する。
RSFG-100kはシーン記述、地域レベルのアノテーション、難易度の高いサンプルを含む微粒なリモートセンシングデータセットである。
論文 参考訳(メタデータ) (2026-03-10T12:12:11Z) - Unifying Heterogeneous Multi-Modal Remote Sensing Detection Via Language-Pivoted Pretraining [59.2578488860426]
不均一なマルチモーダルリモートセンシングオブジェクト検出は、多様なセンサからオブジェクトを正確に検出することを目的としている。
既存のアプローチでは、下流の微調整中にモーダリティアライメントとタスク固有の最適化が絡み合う遅延アライメントパラダイムが採用されている。
本稿では,下流のタスク学習からモダリティアライメントを明確に分離する,統一型言語パイロット事前学習フレームワークであるBabelRSを提案する。
論文 参考訳(メタデータ) (2026-03-02T11:38:12Z) - RSGround-R1: Rethinking Remote Sensing Visual Grounding through Spatial Reasoning [61.84363374647606]
リモートセンシングビジュアルグラウンドディング(RSVG)は、自然言語記述に基づく大規模空中画像における対象物体のローカライズを目的としている。
これらの記述はしばしば位置的手がかりに大きく依存しており、空間的推論においてMLLM(Multimodal Large Language Models)に固有の課題を提起している。
空間理解の高度化を図るために,textbfRSGround-R1 と呼ばれる推論誘導型位置認識後学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T12:35:57Z) - Weakly-Supervised Image Forgery Localization via Vision-Language Collaborative Reasoning Framework [16.961220047066792]
ViLaCoは視覚言語の共同推論フレームワークで、事前訓練された視覚言語モデルから抽出した補助的セマンティックインスペクションを導入する。
ViLaCoは既存のWSIFL法を大幅に上回り、検出精度とローカライゼーション精度の両方で最先端の性能を達成する。
論文 参考訳(メタデータ) (2025-08-02T12:14:29Z) - Deformable Attentive Visual Enhancement for Referring Segmentation Using Vision-Language Model [0.8747606955991707]
本稿では,セグメンテーションの精度とモーダル間のアライメントを向上させるために,アーキテクチャの改善を取り入れた視覚言語モデルを提案する。
SegVLMは多様なデータセットをまたいだ強力な一般化と表現シナリオの参照を示す。
論文 参考訳(メタデータ) (2025-05-25T17:42:53Z) - Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [50.433911327489554]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - Image Translation as Diffusion Visual Programmers [52.09889190442439]
Diffusion Visual Programmer (DVP) は、ニューロシンボリックな画像翻訳フレームワークである。
我々のフレームワークはGPTアーキテクチャ内に条件フレキシブル拡散モデルをシームレスに組み込む。
大規模な実験は、DVPの卓越したパフォーマンスを示し、同時に芸術を超越している。
論文 参考訳(メタデータ) (2024-01-18T05:50:09Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。