論文の概要: RSVG-ZeroOV: Exploring a Training-Free Framework for Zero-Shot Open-Vocabulary Visual Grounding in Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2509.18711v1
- Date: Tue, 23 Sep 2025 06:52:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.736611
- Title: RSVG-ZeroOV: Exploring a Training-Free Framework for Zero-Shot Open-Vocabulary Visual Grounding in Remote Sensing Images
- Title(参考訳): RSVG-ZeroOV:リモートセンシング画像におけるゼロショットオープン語彙視覚グラウンドのための学習自由フレームワークの探索
- Authors: Ke Li, Di Wang, Ting Wang, Fuyu Dong, Yiming Zhang, Luyao Zhang, Xiangyu Wang, Shaofeng Li, Quan Wang,
- Abstract要約: リモートセンシングビジュアルグラウンドディング(RSVG)は、自由形式の自然言語表現に基づいて、オブジェクトをリモートセンシング画像にローカライズすることを目的としている。
我々は,ゼロショットオープン語彙RSVGのためのフリージェネリック基盤モデルの可能性を探るためのトレーニングフリーフレームワークである textbfRSVG-ZeroOV を提案する。
- 参考スコア(独自算出の注目度): 18.68323373148979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote sensing visual grounding (RSVG) aims to localize objects in remote sensing images based on free-form natural language expressions. Existing approaches are typically constrained to closed-set vocabularies, limiting their applicability in open-world scenarios. While recent attempts to leverage generic foundation models for open-vocabulary RSVG, they overly rely on expensive high-quality datasets and time-consuming fine-tuning. To address these limitations, we propose \textbf{RSVG-ZeroOV}, a training-free framework that aims to explore the potential of frozen generic foundation models for zero-shot open-vocabulary RSVG. Specifically, RSVG-ZeroOV comprises three key stages: (i) Overview: We utilize a vision-language model (VLM) to obtain cross-attention\footnote[1]{In this paper, although decoder-only VLMs use self-attention over all tokens, we refer to the image-text interaction part as cross-attention to distinguish it from pure visual self-attention.}maps that capture semantic correlations between text queries and visual regions. (ii) Focus: By leveraging the fine-grained modeling priors of a diffusion model (DM), we fill in gaps in structural and shape information of objects, which are often overlooked by VLM. (iii) Evolve: A simple yet effective attention evolution module is introduced to suppress irrelevant activations, yielding purified segmentation masks over the referred objects. Without cumbersome task-specific training, RSVG-ZeroOV offers an efficient and scalable solution. Extensive experiments demonstrate that the proposed framework consistently outperforms existing weakly-supervised and zero-shot methods.
- Abstract(参考訳): リモートセンシングビジュアルグラウンドディング(RSVG)は、自由形式の自然言語表現に基づいて、オブジェクトをリモートセンシング画像にローカライズすることを目的としている。
既存のアプローチは一般にクローズドセットの語彙に制約され、オープンワールドシナリオにおける適用性を制限する。
オープンボキャブラリRSVGの汎用基盤モデルを活用しようとする最近の試みは、高価な高品質データセットと時間を要する微調整に過度に依存している。
これらの制約に対処するために,ゼロショットオープン語彙RSVGのためのフリージェネリック基盤モデルの可能性を探究する,トレーニングフリーなフレームワークである \textbf{RSVG-ZeroOV} を提案する。
具体的には、RSVG-ZeroOVは3つの重要な段階から構成される。
(i)視覚言語モデル(VLM)を用いて、クロスアテンション\footnote[1]{ ここでは、デコーダのみのVLMは、すべてのトークンに対して自己アテンションを使用するが、画像とテキストの相互作用部分は、純粋な視覚的自己アテンションと区別するために、クロスアテンションとして参照する。
テキストクエリと視覚領域間の意味的相関をキャプチャするマップ。
焦点:拡散モデル (DM) の微細なモデリング先行を活用すれば, 物体の構造的・形状的情報のギャップを埋めることができ, しばしばVLMによって見落とされがちである。
第三報:無関係なアクティベーションを抑えるため, 簡易かつ効果的な注意進化モジュールを導入し, 参照対象に対して精製されたセグメンテーションマスクを付与する。
面倒なタスク固有のトレーニングがなければ、RSVG-ZeroOVは効率的でスケーラブルなソリューションを提供する。
大規模な実験により、提案されたフレームワークは、既存の弱い教師付きおよびゼロショット法よりも一貫して優れていることが示された。
関連論文リスト
- Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - RSRefSeg: Referring Remote Sensing Image Segmentation with Foundation Models [24.67117013862316]
リモートセンシング画像のセグメンテーションの参照は、きめ細かい視覚的理解の実現に不可欠である。
本稿では,参照リモートセンシング画像分割基礎モデルRSRefSegを紹介する。
RRSIS-Dデータセットの実験結果は、RSRefSegが既存の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-01-12T13:22:35Z) - Scale-wise Bidirectional Alignment Network for Referring Remote Sensing Image Segmentation [12.893224628061516]
リモートセンシング画像セグメンテーション(RRSIS)の目的は、自然言語表現を用いて、空中画像内の特定のピクセルレベル領域を抽出することである。
本稿では,これらの課題に対処するため,SBANet(Scale-wise Bidirectional Alignment Network)と呼ばれる革新的なフレームワークを提案する。
提案手法は,RRSIS-DとRefSegRSのデータセットにおける従来の最先端手法と比較して,優れた性能を実現する。
論文 参考訳(メタデータ) (2025-01-01T14:24:04Z) - COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training [49.2684130383925]
視覚言語事前学習のためのCOSMOS: CrOSs-modality Self-distillationを提案する。
新たなテキストクロッピング戦略とクロスアテンションモジュールを自己教師型学習フレームワークに統合する。
さまざまなゼロショットダウンストリームタスクにおいて、以前の強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-12-02T18:56:06Z) - 3D Visibility-aware Generalizable Neural Radiance Fields for Interacting
Hands [51.305421495638434]
ニューラル放射場(NeRF)は、シーン、オブジェクト、人間の3D表現を約束する。
本稿では,手動操作のための一般化可能な視認可能なNeRFフレームワークを提案する。
Interhand2.6Mデータセットの実験により、提案したVA-NeRFは従来のNeRFよりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2024-01-02T00:42:06Z) - Generalized Robot 3D Vision-Language Model with Fast Rendering and Pre-Training Vision-Language Alignment [55.11291053011696]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
限定的な再構築の場合、提案手法はWS3D++と呼ばれ、大規模なScanNetベンチマークで1位にランクインした。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - VGDiffZero: Text-to-image Diffusion Models Can Be Zero-shot Visual
Grounders [31.371338262371122]
VGDiffZeroは、テキストから画像への拡散モデルに基づくゼロショットのビジュアルグラウンドティングフレームワークである。
VGDiffZeroはゼロショット映像のグラウンド化において高い性能を示す。
論文 参考訳(メタデータ) (2023-09-03T11:32:28Z) - UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding [88.24517460894634]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T09:03:12Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。