論文の概要: SAPL: Semantic-Agnostic Prompt Learning in CLIP for Weakly Supervised Image Manipulation Localization
- arxiv url: http://arxiv.org/abs/2601.06222v1
- Date: Fri, 09 Jan 2026 07:25:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.693568
- Title: SAPL: Semantic-Agnostic Prompt Learning in CLIP for Weakly Supervised Image Manipulation Localization
- Title(参考訳): SAPL: 弱教師付き画像マニピュレーションローカライゼーションのためのCLIPにおける意味非依存的プロンプト学習
- Authors: Xinghao Wang, Changtao Miao, Dianmo Sheng, Tao Gong, Qi Chu, Nenghai Yu, Quanchen Zou, Deyue Zhang, Xiangzheng Zhang,
- Abstract要約: 悪意のある画像操作は公衆の安全を脅かし、効率的な位置決め方法を必要とする。
既存の弱教師付き手法は画像レベルのバイナリラベルに依存し、グローバルな分類に重点を置いている。
本稿では,CLIPにおける意味非依存型プロンプト学習(SAPL)を提案し,非意味的,境界中心的なキューを意図的に符号化するテキストプロンプトを学習する。
- 参考スコア(独自算出の注目度): 45.19935082419337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Malicious image manipulation threatens public safety and requires efficient localization methods. Existing approaches depend on costly pixel-level annotations which make training expensive. Existing weakly supervised methods rely only on image-level binary labels and focus on global classification, often overlooking local edge cues that are critical for precise localization. We observe that feature variations at manipulated boundaries are substantially larger than in interior regions. To address this gap, we propose Semantic-Agnostic Prompt Learning (SAPL) in CLIP, which learns text prompts that intentionally encode non-semantic, boundary-centric cues so that CLIPs multimodal similarity highlights manipulation edges rather than high-level object semantics. SAPL combines two complementary modules Edge-aware Contextual Prompt Learning (ECPL) and Hierarchical Edge Contrastive Learning (HECL) to exploit edge information in both textual and visual spaces. The proposed ECPL leverages edge-enhanced image features to generate learnable textual prompts via an attention mechanism, embedding semantic-irrelevant information into text features, to guide CLIP focusing on manipulation edges. The proposed HECL extract genuine and manipulated edge patches, and utilize contrastive learning to boost the discrimination between genuine edge patches and manipulated edge patches. Finally, we predict the manipulated regions from the similarity map after processing. Extensive experiments on multiple public benchmarks demonstrate that SAPL significantly outperforms existing approaches, achieving state-of-the-art localization performance.
- Abstract(参考訳): 悪意のある画像操作は公衆の安全を脅かし、効率的な位置決め方法を必要とする。
既存のアプローチは、トレーニングを高価にするコストの高いピクセルレベルのアノテーションに依存します。
既存の弱教師付き手法は画像レベルのバイナリラベルにのみ依存し、大域的な分類に重点を置いている。
操作された境界における特徴変動は内部領域よりもかなり大きいことが観察された。
このギャップに対処するために,CLIP における意味論的プロンプト学習 (SAPL) を提案する。テキストのプロンプトを学習することで,非意味的,境界中心的なキューを意図的に符号化し,CLIP のマルチモーダル類似性が高レベルなオブジェクトセマンティクスよりも操作エッジを強調する。
SAPLは2つの相補的なモジュール Contextual Prompt Learning (ECPL) とHierarchical Edge Contrastive Learning (HECL) を組み合わせて、テキスト空間と視覚空間の両方のエッジ情報を利用する。
提案したECPLはエッジ強調画像機能を活用して,注目機構を通じて学習可能なテキストプロンプトを生成し,テキスト機能に意味不明な情報を埋め込んで,エッジの操作に重点を置くCLIPをガイドする。
提案するHECLは, エッジパッチを抽出し, 比較学習を利用して, エッジパッチとエッジパッチの識別を向上する。
最後に,処理後の類似度マップから操作領域を予測する。
複数の公開ベンチマークでの大規模な実験により、SAPLは既存のアプローチを著しく上回り、最先端のローカライゼーション性能を達成している。
関連論文リスト
- FarSLIP: Discovering Effective CLIP Adaptation for Fine-Grained Remote Sensing Understanding [27.61517650555534]
現在のRS画像テキストデータセットは、オブジェクトレベルのラベルからグローバルキャプションを生成する。
RSデータへの直接適用は、しばしばパフォーマンスの低下につながる。
FarSLIP は,粒度の細かい RS Language Image Pretraining フレームワークである。
論文 参考訳(メタデータ) (2025-11-18T20:39:15Z) - Exploring CLIP's Dense Knowledge for Weakly Supervised Semantic Segmentation [19.26516470653798]
画像レベルラベル付き弱スーパービジョンセマンティック(WSSS)は、クラスマップ(CAM)を用いた画素レベルの予測を実現することを目的としている。
最近の手法は主にCAM生成のための画像テキストアライメントに重点を置いているが、パッチテキストアライメントにおけるCLIPの可能性はいまだ解明されていない。
我々は,WSSS のパッチテキストアライメントパラダイムを通じて,CLIP の密集した知識を探索する ExCEL を提案する。
論文 参考訳(メタデータ) (2025-03-26T02:00:49Z) - Seeing What Matters: Empowering CLIP with Patch Generation-to-Selection [54.21851618853518]
本稿では,CLIPのトレーニング効率を高めるために,パッチ生成と選択という簡潔で効果的なアプローチを提案する。
私たちのアプローチであるCLIP-PGSは、ゼロショット分類と検索タスクにおいて、新しい最先端結果を設定する。
論文 参考訳(メタデータ) (2025-03-21T12:10:38Z) - Talking to DINO: Bridging Self-Supervised Vision Backbones with Language for Open-Vocabulary Segmentation [56.001484215308075]
本稿では,DINOv2の空間的精度とCLIPの言語理解を組み合わせた,新しいハイブリッドアプローチであるTalk2DINOを提案する。
本研究では,Talk2DINOの強力なセマンティック・ローカライゼーション能力によってセグメンテーションのプロセスが強化されることを示す。
実験の結果、Talk2DINOは教師なしのOVSベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-11-28T19:00:03Z) - DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation [8.422110274212503]
弱教師付きセマンティックセグメンテーションアプローチは通常、初期シード生成にクラスアクティベーションマップ(CAM)に依存する。
DALNetは、テキストの埋め込みを利用して、さまざまなレベルの粒度のオブジェクトの包括的理解と正確な位置決めを強化する。
このアプローチは特に、シングルステージの手法として、より効率的なエンドツーエンドプロセスを可能にします。
論文 参考訳(メタデータ) (2024-09-24T06:51:49Z) - Multi-Grained Cross-modal Alignment for Learning Open-vocabulary
Semantic Segmentation from Text Supervision [23.931443799102663]
我々は,高密度アノテーションを使わずに粒度ギャップを埋めるために,MGCA(Multi-Grained Cross-Modal Alignment)フレームワークを導入する。
具体的には、MGCAは画像とテキストのペアに基づいて擬似多言語意味対応を構築する。
提案手法は最先端の手法よりも大幅に進歩し,その有効性と効率性を実証する。
論文 参考訳(メタデータ) (2024-03-06T13:43:36Z) - CLIM: Contrastive Language-Image Mosaic for Region Representation [58.05870131126816]
Contrastive Language-Image Mosaic (CLIM) は、領域とテキストの表現を整合させる新しいアプローチである。
CLIMは、異なるオープン語彙オブジェクト検出方法を一貫して改善する。
視覚言語モデルの領域表現を効果的に強化することができる。
論文 参考訳(メタデータ) (2023-12-18T17:39:47Z) - Towards Effective Image Manipulation Detection with Proposal Contrastive
Learning [61.5469708038966]
本稿では,効果的な画像操作検出のためのコントラスト学習(PCL)を提案する。
我々のPCLは、RGBとノイズビューから2種類のグローバル特徴を抽出し、2ストリームアーキテクチャで構成されている。
我々のPCLは、実際にラベル付けされていないデータに容易に適用でき、手作業によるラベル付けコストを削減し、より一般化可能な機能を促進することができる。
論文 参考訳(メタデータ) (2022-10-16T13:30:13Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。