論文の概要: OpenDPR: Open-Vocabulary Change Detection via Vision-Centric Diffusion-Guided Prototype Retrieval for Remote Sensing Imagery
- arxiv url: http://arxiv.org/abs/2603.27645v1
- Date: Sun, 29 Mar 2026 11:43:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.053346
- Title: OpenDPR: Open-Vocabulary Change Detection via Vision-Centric Diffusion-Guided Prototype Retrieval for Remote Sensing Imagery
- Title(参考訳): OpenDPR:視覚中心拡散誘導型リモートセンシング画像検索による開語彙変化検出
- Authors: Qi Guo, Jue Wang, Yinhe Liu, Yanfei Zhong,
- Abstract要約: Open-vocabulary Change Detection (OVCD) は、定義済みクラスの固定セットを超えた一般化を可能にすることで、任意の関心の変化を認識することを目指している。
まず、SAMやDINOv2のような視覚基盤モデル(VFM)を用いてクラスに依存しない変更提案を生成し、CLIPのような視覚言語モデル(VLM)を用いてカテゴリ識別を行う。
トレーニング不要な視覚中心拡散誘導型プロトタイプ検索フレームワークOpenDPRを提案する。
- 参考スコア(独自算出の注目度): 22.361232756908095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-vocabulary change detection (OVCD) seeks to recognize arbitrary changes of interest by enabling generalization beyond a fixed set of predefined classes. We reformulate OVCD as a two-stage pipeline: first generate class-agnostic change proposals using visual foundation models (VFMs) such as SAM and DINOv2, and then perform category identification with vision-language models (VLMs) such as CLIP. We reveal that category identification errors are the primary bottleneck of OVCD, mainly due to the limited ability of VLMs based on image-text matching to represent fine-grained land-cover categories. To address this, we propose OpenDPR, a training-free vision-centric diffusion-guided prototype retrieval framework. OpenDPR leverages diffusion models to construct diverse prototypes for target categories offline, and to perform similarity retrieval with change proposals in the visual space during inference. The secondary bottleneck lies in change localization, due to the inherent lack of change priors in VFMs. To bridge this gap, we design a spatial-to-change weakly supervised change detection module named S2C to adapt their strong spatial modeling capabilities for change localization. Integrating the pretrained S2C into OpenDPR leads to an optional weakly supervised variant named OpenDPR-W, which further improves OVCD with minimal supervision. Experimental results on four benchmark datasets demonstrate that the proposed methods achieve state-of-the-art performance under both supervision modes. Code is available at https://github.com/guoqi2002/OpenDPR.
- Abstract(参考訳): Open-vocabulary Change Detection (OVCD) は、定義済みクラスの固定セットを超えた一般化を可能にすることで、任意の関心の変化を認識することを目指している。
まず、SAMやDINOv2のような視覚基盤モデル(VFM)を用いてクラスに依存しない変更提案を生成し、CLIPのような視覚言語モデル(VLM)を用いてカテゴリ識別を行う。
分類誤りがOVCDの主要なボトルネックであることを明らかにする。主に細粒度の土地被覆カテゴリを表す画像テキストマッチングに基づくVLMの限られた能力のためである。
そこで本研究では,トレーニング不要な視覚中心拡散誘導型プロトタイプ検索フレームワークOpenDPRを提案する。
OpenDPRは拡散モデルを利用して、ターゲットカテゴリの様々なプロトタイプをオフラインで構築し、推論中に視覚空間の変更提案と類似性検索を行う。
第二のボトルネックは、VFMにおける変化の先駆的な欠如のため、変化の局所化にある。
このギャップを埋めるため,S2Cという名前の空間的教師付き変化検出モジュールを設計し,その空間的モデリング能力を活用して変化ローカライゼーションを実現する。
事前訓練されたS2CをOpenDPRに統合すると、オプションとしてOpenDPR-Wと呼ばれる弱めに制御された派生機が登場し、最小限の監督でOVCDをさらに改善した。
4つのベンチマークデータセットによる実験結果から,提案手法が両監視モード下での最先端性能を実現することが示された。
コードはhttps://github.com/guoqi2002/OpenDPRで公開されている。
関連論文リスト
- OmniOVCD: Streamlining Open-Vocabulary Change Detection with SAM 3 [19.94566126701934]
Open-Vocabulary Change Detection (OVCD)は、事前に定義されたカテゴリへの依存を減らすことを目的としている。
本稿では,OVCD用に設計されたスタンドアロンフレームワークであるOmniOVCDを提案する。
4つの公開ベンチマークの実験では、IoUスコアは67.2、66.5、24.5、27.1(クラス平均)である。
論文 参考訳(メタデータ) (2026-01-20T12:25:41Z) - UniVCD: A New Method for Unsupervised Change Detection in the Open-Vocabulary Era [0.0]
変化検出(CD)は、多時間観測によるシーン変化を特定し、都市開発や環境モニタリングに広く利用されている。
既存のCD手法の多くは教師あり学習に依存しており、パフォーマンスはデータセットに依存し、高いアノテーションコストがかかる。
凍ったSAM2とCLIP上に構築された教師なしのオープン語彙変化検出手法Unified Open-Vocabulary Change Detection (UniVCD)を提案する。
論文 参考訳(メタデータ) (2025-12-15T08:42:23Z) - Referring Change Detection in Remote Sensing Imagery [49.841833753558575]
本稿では、自然言語のプロンプトを利用してリモートセンシング画像の変化の特定のクラスを検出するReferring Change Detection (RCD)を紹介する。
我々は, (I) textbfRCDNet, (II) textbfRCDGen, (II) 拡散型合成データ生成パイプラインからなる2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-12T16:57:12Z) - Hierarchical Identity Learning for Unsupervised Visible-Infrared Person Re-Identification [81.3063589622217]
教師なし可視赤外線人物再識別(USVI-ReID)は、ラベルのないクロスモーダルな人物データセットからモダリティ不変の画像特徴を学習することを目的としている。
論文 参考訳(メタデータ) (2025-09-15T05:10:43Z) - DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and
Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。
これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。
このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文 参考訳(メタデータ) (2024-02-03T06:49:42Z) - Segment Change Model (SCM) for Unsupervised Change detection in VHR Remote Sensing Images: a Case Study of Buildings [24.520190873711766]
セグメント変更モデル(SCM)と呼ばれる教師なし変更検出(CD)手法を提案する。
提案手法は,異なるスケールで抽出した特徴を再検討し,それらをトップダウンで統合し,識別的変化エッジを強化する。
論文 参考訳(メタデータ) (2023-12-27T04:47:03Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - HSVA: Hierarchical Semantic-Visual Adaptation for Zero-Shot Learning [74.76431541169342]
ゼロショット学習(ZSL)は、目に見えないクラス認識の問題に取り組み、目に見えないクラスから目に見えないクラスに意味的な知識を移す。
本稿では,意味領域と視覚領域を協調させる新しい階層型意味視覚適応(HSVA)フレームワークを提案する。
4つのベンチマークデータセットの実験では、HSVAは従来のZSLと一般的なZSLの両方で優れた性能を示す。
論文 参考訳(メタデータ) (2021-09-30T14:27:50Z) - Cross-Modality Brain Tumor Segmentation via Bidirectional
Global-to-Local Unsupervised Domain Adaptation [61.01704175938995]
本論文では,UDAスキームに基づくBiGL(Bidirectional Global-to-Local)適応フレームワークを提案する。
具体的には、脳腫瘍をセグメント化するために、双方向画像合成およびセグメンテーションモジュールを提案する。
提案手法は, 最先端の非教師なし領域適応法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-05-17T10:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。