論文の概要: SemiCD-VL: Visual-Language Model Guidance Makes Better Semi-supervised Change Detector
- arxiv url: http://arxiv.org/abs/2405.04788v4
- Date: Sun, 20 Oct 2024 15:08:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:12:19.040087
- Title: SemiCD-VL: Visual-Language Model Guidance Makes Better Semi-supervised Change Detector
- Title(参考訳): SemiCD-VL: ビジュアルランゲージモデル誘導による半教師付き変化検出器の改良
- Authors: Kaiyu Li, Xiangyong Cao, Yupeng Deng, Jiayi Song, Junmin Liu, Deyu Meng, Zhi Wang,
- Abstract要約: Change Detection (CD) は、画像間のセマンティックな変化でピクセルを識別することを目的としている。
VLM誘導に基づく半教師付きCD手法,すなわちSemiCD-VLを提案する。
本稿では,VLMに基づく混合変化イベント生成(CEG)戦略を提案し,ラベルなしCDデータに対して擬似ラベルを出力する。
- 参考スコア(独自算出の注目度): 43.199838967666714
- License:
- Abstract: Change Detection (CD) aims to identify pixels with semantic changes between images. However, annotating massive numbers of pixel-level images is labor-intensive and costly, especially for multi-temporal images, which require pixel-wise comparisons by human experts. Considering the excellent performance of visual language models (VLMs) for zero-shot, open-vocabulary, etc. with prompt-based reasoning, it is promising to utilize VLMs to make better CD under limited labeled data. In this paper, we propose a VLM guidance-based semi-supervised CD method, namely SemiCD-VL. The insight of SemiCD-VL is to synthesize free change labels using VLMs to provide additional supervision signals for unlabeled data. However, almost all current VLMs are designed for single-temporal images and cannot be directly applied to bi- or multi-temporal images. Motivated by this, we first propose a VLM-based mixed change event generation (CEG) strategy to yield pseudo labels for unlabeled CD data. Since the additional supervised signals provided by these VLM-driven pseudo labels may conflict with the pseudo labels from the consistency regularization paradigm (e.g. FixMatch), we propose the dual projection head for de-entangling different signal sources. Further, we explicitly decouple the bi-temporal images semantic representation through two auxiliary segmentation decoders, which are also guided by VLM. Finally, to make the model more adequately capture change representations, we introduce metric-aware supervision by feature-level contrastive loss in auxiliary branches. Extensive experiments show the advantage of SemiCD-VL. For instance, SemiCD-VL improves the FixMatch baseline by +5.3 IoU on WHU-CD and by +2.4 IoU on LEVIR-CD with 5% labels. In addition, our CEG strategy, in an un-supervised manner, can achieve performance far superior to state-of-the-art un-supervised CD methods.
- Abstract(参考訳): Change Detection (CD) は、画像間のセマンティックな変化でピクセルを識別することを目的としている。
しかし、大量のピクセルレベルの画像に注釈を付けることは、特に人間の専門家によるピクセルレベルの比較を必要とするマルチテンポラリ画像に対して、労働集約的でコストがかかる。
ゼロショットやオープンボキャブラリなどにおける視覚言語モデル(VLM)の性能を即時推論で向上させることを考えると,VLMを利用してラベル付きデータでより良いCDを作成することが期待できる。
本稿では,VLM誘導に基づく半教師付きCD手法,すなわちSemiCD-VLを提案する。
SemiCD-VLの洞察は、VLMを用いて自由な変更ラベルを合成し、ラベルなしデータに対するさらなる監視信号を提供することである。
しかしながら、現在のほとんどのVLMは単一時間画像用に設計されており、バイ時間画像や複数時間画像に直接適用することはできない。
そこで我々はまず,VLMに基づく混合変化イベント生成(CEG)戦略を提案し,ラベルなしCDデータに擬似ラベルを付与する。
これらのVLM駆動型擬似ラベルによって提供される追加の教師付き信号は、整合正則化パラダイム(例えば FixMatch)の擬似ラベルと矛盾する可能性があるため、異なる信号源を分離するための二重投影ヘッドを提案する。
さらに、VLMによってガイドされる2つの補助セグメント化デコーダを通して、両時間画像の意味表現を明示的に分離する。
最後に、モデルが変化表現をより適切にキャプチャするために、補助枝における特徴レベルのコントラスト損失によるメトリクス認識の監視を導入する。
広汎な実験はセミCD-VLの利点を示している。
例えば、SemiCD-VLはFixMatchベースラインをWHU-CDで+5.3 IoU、LEVIR-CDで+2.4 IoUで5%改善している。
さらに、当社のCEG戦略は、教師なしの方法で、最先端の教師なしCD手法よりもはるかに優れた性能を達成することができる。
関連論文リスト
- Pixel-Level Change Detection Pseudo-Label Learning for Remote Sensing Change Captioning [28.3763053922823]
リモートセンシング画像変化キャプション(RSICC)の手法は、単純なシーンではうまく機能するが、複雑なシーンでは性能が劣る。
画素レベルのCDは言語による画像の違いを説明する上で重要であると我々は信じている。
提案手法は最先端の性能を達成し,学習用画素レベルのCD擬似ラベルがキャプションの変更に大きく貢献することを示す。
論文 参考訳(メタデータ) (2023-12-23T17:58:48Z) - GPT-Prompt Controlled Diffusion for Weakly-Supervised Semantic
Segmentation [25.628382644404066]
データ拡張のためのGPCD(GPT-Prompt Controlled Diffusion)と呼ばれる新しい手法を提案する。
GPCDは、GPTプロンプトによって誘導される制御拡散によって達成される、様々な画像で拡張することで、現在のラベル付きデータセットを強化する。
提案手法は既存の最先端手法よりも明らかに優れている。
論文 参考訳(メタデータ) (2023-10-15T07:19:23Z) - Exploring Effective Priors and Efficient Models for Weakly-Supervised Change Detection [9.229278131265124]
弱教師付き変化検出(WSCD)は、画像レベルのアノテーションだけでピクセルレベルの変化を検出することを目的としている。
Dilated Prior (DP) デコーダと Label Gated (LG) 制約の2つのコンポーネントを提案する。
提案したTransWCDとTransWCD-DLは,WHU-CDデータセットの最先端手法に比べて,有意な+6.33%,+9.55%のF1スコア向上を実現している。
論文 参考訳(メタデータ) (2023-07-20T13:16:10Z) - Distilling Self-Supervised Vision Transformers for Weakly-Supervised
Few-Shot Classification & Segmentation [58.03255076119459]
視覚変換器(ViT)を利用した弱教師付き小ショット画像分類とセグメンテーションの課題に対処する。
提案手法は,自己監督型ViTからトークン表現を抽出し,その相関関係を利用して分類とセグメンテーションの予測を行う。
Pascal-5iとCOCO-20iの実験は、様々な監視設定において大きなパフォーマンス向上を示した。
論文 参考訳(メタデータ) (2023-07-07T06:16:43Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - Open Vocabulary Multi-Label Classification with Dual-Modal Decoder on
Aligned Visual-Textual Features [14.334304670606633]
本稿では,視覚的特徴とテキスト的特徴の整合性を備えた2次元デコーダ (DM-decoder) を含む新しいアルゴリズム,Aligned Dual MoDality ClaSsifier (ADDS) を提案する。
NUS-WIDE, ImageNet-1k, ImageNet-21k, MS-COCO など,いくつかの標準ベンチマークで実施された大規模な実験により,提案手法が従来の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-08-19T22:45:07Z) - Dual-Perspective Semantic-Aware Representation Blending for Multi-Label
Image Recognition with Partial Labels [70.36722026729859]
本稿では,多粒度カテゴリ固有の意味表現を異なる画像にブレンドした,二重パースペクティブな意味認識表現ブレンディング(DSRB)を提案する。
提案したDSは、すべての比率ラベル設定において、最先端のアルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-26T00:33:44Z) - Revisiting Consistency Regularization for Semi-supervised Change
Detection in Remote Sensing Images [60.89777029184023]
教師付きクロスエントロピー(CE)損失に加えて、教師なしCD損失を定式化する半教師付きCDモデルを提案する。
2つの公開CDデータセットを用いて実験を行った結果,提案手法は教師付きCDの性能に近づきやすいことがわかった。
論文 参考訳(メタデータ) (2022-04-18T17:59:01Z) - Semi-Supervised Domain Adaptation with Prototypical Alignment and
Consistency Learning [86.6929930921905]
本稿では,いくつかの対象サンプルがラベル付けされていれば,ドメインシフトに対処するのにどの程度役立つか検討する。
ランドマークの可能性を最大限に追求するために、ランドマークから各クラスのターゲットプロトタイプを計算するプロトタイプアライメント(PA)モジュールを組み込んでいます。
具体的には,ラベル付き画像に深刻な摂動を生じさせ,PAを非自明にし,モデル一般化性を促進する。
論文 参考訳(メタデータ) (2021-04-19T08:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。