論文の概要: Semantic-aware Adversarial Fine-tuning for CLIP
- arxiv url: http://arxiv.org/abs/2602.12461v1
- Date: Thu, 12 Feb 2026 22:40:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.776541
- Title: Semantic-aware Adversarial Fine-tuning for CLIP
- Title(参考訳): CLIPのセマンティック・アウェア・アドバイザリファインタニング
- Authors: Jiacheng Zhang, Jinhao Li, Hanxun Huang, Sarah M. Erfani, Benjamin I. P. Rubinstein, Feng Liu,
- Abstract要約: 1枚の画像と1枚の手作りテンプレートのコサイン類似性は、画像とテキストのペアの類似性を測定するのに不十分であることが示されている。
本稿では,セマンティック・アウェア・アウェア・アウェア・ファインタニング (SAFT) を提案し,CLIPのイメージエンコーダをセマンティック・アウェア AE で微調整する。
- 参考スコア(独自算出の注目度): 32.894711409751956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have shown that CLIP model's adversarial robustness in zero-shot classification tasks can be enhanced by adversarially fine-tuning its image encoder with adversarial examples (AEs), which are generated by minimizing the cosine similarity between images and a hand-crafted template (e.g., ''A photo of a {label}''). However, it has been shown that the cosine similarity between a single image and a single hand-crafted template is insufficient to measure the similarity for image-text pairs. Building on this, in this paper, we find that the AEs generated using cosine similarity may fail to fool CLIP when the similarity metric is replaced with semantically enriched alternatives, making the image encoder fine-tuned with these AEs less robust. To overcome this issue, we first propose a semantic-ensemble attack to generate semantic-aware AEs by minimizing the average similarity between the original image and an ensemble of refined textual descriptions. These descriptions are initially generated by a foundation model to capture core semantic features beyond hand-crafted templates and are then refined to reduce hallucinations. To this end, we propose Semantic-aware Adversarial Fine-Tuning (SAFT), which fine-tunes CLIP's image encoder with semantic-aware AEs. Extensive experiments show that SAFT outperforms current methods, achieving substantial improvements in zero-shot adversarial robustness across 16 datasets. Our code is available at: https://github.com/tmlr-group/SAFT.
- Abstract(参考訳): 近年の研究では、ゼロショット分類タスクにおけるCLIPモデルの逆方向ロバスト性は、画像と手作りテンプレートのコサイン類似性を最小化して生成する逆方向の例(AE)を用いて、画像エンコーダを逆向きに微調整することで向上することができる(例: ''A photo of a {label}')。
しかし, 単一画像と単一手作りテンプレートとのコサイン類似性は, 画像テキストペアの類似性を測定するには不十分であることが示されている。
そこで本論文では,コサイン類似度を用いて生成したAEが,類似度メトリックを意味的にリッチな代替品に置き換えた場合,CLIPを騙すことができず,画像エンコーダをこれらのAEで微調整しにくくする。
この問題を解決するために,まず,原画像と洗練されたテキスト記述のアンサンブルの平均的類似性を最小化し,意味認識型AEを生成するセマンティックアンサンブル攻撃を提案する。
これらの記述は最初、手作りテンプレート以外のコアセマンティックな特徴をキャプチャする基礎モデルによって生成され、幻覚を減らすために洗練される。
そこで本研究では,セマンティック・アウェア・アウェア・ファインタニング(SAFT)を提案し,セマンティック・アウェア・AEを用いたCLIPの画像エンコーダを提案する。
大規模な実験により、SAFTは現在の手法より優れており、16のデータセットでゼロショット対逆ロバスト性を大幅に改善していることが示された。
私たちのコードは、https://github.com/tmlr-group/SAFT.comで利用可能です。
関連論文リスト
- When Semantics Regulate: Rethinking Patch Shuffle and Internal Bias for Generated Image Detection with CLIP [13.360123625878733]
CLIPベースの検出器は、しばしばジェネレータアーティファクトではなくセマンティックキューに依存しており、分散シフト時の不安定なパフォーマンスをもたらす。
Patch Shuffleは、グローバルなセマンティックな連続性を阻害するCLIPに対して、非常に強力なメリットを提供する。
本稿では,セマンティックサブ空間を凍結し,人工物に敏感な層のみを適応させるセマンティック・アンタゴニスティックな微調整パラダイムであるSemAntiを提案する。
論文 参考訳(メタデータ) (2025-11-24T13:54:00Z) - Beyond Cosine Similarity Magnitude-Aware CLIP for No-Reference Image Quality Assessment [25.104682483704]
本稿では,コサインの類似性を大局的に認識できる品質クオリティキューに補完する新しい適応融合フレームワークを提案する。
本手法は,タスク固有のトレーニングを伴わずに,標準のCLIPベースのIQAと最先端のベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-11-13T04:28:03Z) - Semantic Visual Anomaly Detection and Reasoning in AI-Generated Images [96.43608872116347]
AnomReasonは4倍のtextbfAnomAgentのような構造化アノテーションを備えた大規模ベンチマーク
AnomReasonとAnomAgentは、AI生成画像の意味的妥当性の測定と改善の基盤となっている。
論文 参考訳(メタデータ) (2025-10-11T14:09:24Z) - Semantic-Aware Reconstruction Error for Detecting AI-Generated Images [22.83053631078616]
本稿では,画像とキャプション誘導再構成のセマンティック・アウェア・リコンストラクション・エラー(SARE)を計測する新しい表現を提案する。
SAREは、さまざまな生成モデル間で偽画像を検出するための堅牢で差別的な機能を提供する。
また,SAREを背骨検出器に統合する融合モジュールを,クロスアテンション機構を介して導入する。
論文 参考訳(メタデータ) (2025-08-13T04:37:36Z) - Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning [70.98890307376548]
そこで本研究では,学習中に不信なコンテンツを適応的に緩和する,新しいPatch-wise Cross-modal Feature Mix-up(PCM)機構を提案する。
私たちのPCM-Netは、ドメイン内およびクロスドメインのゼロショット画像キャプションの両方で第1位です。
論文 参考訳(メタデータ) (2024-12-31T13:39:08Z) - Wavelet-based Unsupervised Label-to-Image Translation [9.339522647331334]
本稿では、自己教師付きセグメンテーション損失と全画像ウェーブレットに基づく識別を併用した、SIS(USIS)のための新しいアン教師付きパラダイムを提案する。
3つの挑戦的なデータセットで方法論を検証し、ペアモデルとアンペアモデルのパフォーマンスギャップを橋渡しする能力を実証する。
論文 参考訳(メタデータ) (2023-05-16T17:48:44Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Introspective Deep Metric Learning for Image Retrieval [80.29866561553483]
良好な類似性モデルは、より堅牢なトレーニングのために曖昧なイメージをよりよく扱うように注意しながら、意味的な相違を考慮すべきである、と我々は主張する。
本稿では,画像の意味的特徴とあいまいさを記述した,意味的埋め込みだけでなく,付随する不確実性埋め込みを用いて画像を表現することを提案する。
提案したIDMLフレームワークは,不確実性モデリングによるディープメトリック学習の性能向上を実現し,広く使用されているCUB-200-2011,Cars196,Stanford Online Productsデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2022-05-09T17:51:44Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - USIS: Unsupervised Semantic Image Synthesis [9.613134538472801]
セマンティック画像合成(USIS)のための新しい教師なしパラダイムを提案する。
USISは、自己教師付きセグメンテーションロスを使用して、視覚的に分離可能なセグメンテーションクラスで画像を出力することを学ぶ。
実画像の色とテクスチャの分布を高周波数情報を失うことなく一致させるため,ウェーブレットを用いた識別手法を提案する。
論文 参考訳(メタデータ) (2021-09-29T20:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。