論文の概要: Adversarially Robust CLIP Models Can Induce Better (Robust) Perceptual Metrics
- arxiv url: http://arxiv.org/abs/2502.11725v1
- Date: Mon, 17 Feb 2025 12:11:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:14:17.679833
- Title: Adversarially Robust CLIP Models Can Induce Better (Robust) Perceptual Metrics
- Title(参考訳): 可逆的ロバストCLIPモデルによる知覚量の改善(ロバスト)
- Authors: Francesco Croce, Christian Schlarmann, Naman Deep Singh, Matthias Hein,
- Abstract要約: 本稿では, 対角的頑健なCLIPモデルにより, より良く, 対角的に頑健な知覚基準が導出されることを示す。
我々の知覚基準は、堅牢な画像・画像検索などの関連タスクにおいて高い性能を達成する。
我々の頑健な知覚距離は、非摂動画像に類似した性能を保ちながら、攻撃下で高い精度を維持している。
- 参考スコア(独自算出の注目度): 42.379680603462155
- License:
- Abstract: Measuring perceptual similarity is a key tool in computer vision. In recent years perceptual metrics based on features extracted from neural networks with large and diverse training sets, e.g. CLIP, have become popular. At the same time, the metrics extracted from features of neural networks are not adversarially robust. In this paper we show that adversarially robust CLIP models, called R-CLIP$_\textrm{F}$, obtained by unsupervised adversarial fine-tuning induce a better and adversarially robust perceptual metric that outperforms existing metrics in a zero-shot setting, and further matches the performance of state-of-the-art metrics while being robust after fine-tuning. Moreover, our perceptual metric achieves strong performance on related tasks such as robust image-to-image retrieval, which becomes especially relevant when applied to "Not Safe for Work" (NSFW) content detection and dataset filtering. While standard perceptual metrics can be easily attacked by a small perturbation completely degrading NSFW detection, our robust perceptual metric maintains high accuracy under an attack while having similar performance for unperturbed images. Finally, perceptual metrics induced by robust CLIP models have higher interpretability: feature inversion can show which images are considered similar, while text inversion can find what images are associated to a given prompt. This also allows us to visualize the very rich visual concepts learned by a CLIP model, including memorized persons, paintings and complex queries.
- Abstract(参考訳): 知覚的類似度を測定することは、コンピュータビジョンにおいて重要なツールである。
近年,大規模で多様なトレーニングセットを持つニューラルネットワークから抽出された特徴に基づく知覚メトリクスが普及している。
同時に、ニューラルネットワークの特徴から抽出されたメトリクスは、逆向きに堅牢ではない。
本稿では、教師なしの逆向き微調整によって得られるR-CLIP$_\textrm{F}$と呼ばれる逆向き頑健なCLIPモデルについて、ゼロショット設定で既存のメトリクスを上回り、さらに、微調整後のロバストな状態にある状態での最先端メトリクスのパフォーマンスとを一致させる、より良く、逆向きに頑健な知覚メトリックを誘導することを示す。
さらに,我々の知覚基準は,NSFW(Not Safe for Work)コンテンツ検出やデータセットフィルタリングに適用した場合に特に重要となる,ロバストなイメージ・ツー・イメージ検索などの関連タスクにおいて高い性能を達成する。
標準的な知覚基準は、NAFW検出を完全に劣化させる小さな摂動によって容易に攻撃できるが、我々の頑健な知覚基準は、非摂動画像に対して同様の性能を保ちながら、攻撃下で高い精度を維持する。
最後に、堅牢なCLIPモデルによって誘導される知覚的メトリクスは、高い解釈可能性を持つ: 機能反転は、どのイメージが類似しているかを示すことができ、テキスト反転は、与えられたプロンプトにどのイメージが関連付けられているかを見つけることができる。
これはまた、暗記された人、絵、複雑なクエリを含む、CLIPモデルによって学習された非常にリッチな視覚概念を可視化することを可能にする。
関連論文リスト
- A Robust Adversarial Ensemble with Causal (Feature Interaction) Interpretations for Image Classification [9.945272787814941]
本稿では,識別的特徴と生成的モデルを組み合わせた深層アンサンブルモデルを提案する。
提案手法は,特徴抽出のためのボトムレベル事前学習型識別ネットワークと,逆入力分布をモデル化したトップレベル生成型分類ネットワークを統合する。
論文 参考訳(メタデータ) (2024-12-28T05:06:20Z) - Leveraging Representations from Intermediate Encoder-blocks for Synthetic Image Detection [13.840950434728533]
SID(State-of-the-art Synthetic Image Detection)研究は、基礎モデルからの特徴抽出の利点を強く証明している。
軽量ネットワークを介してCLIPの画像エンコーダの中間トランスフォーマーブロックから抽出した画像表現を利用する。
本手法は,20個のテストデータセットで評価し,平均+10.6%の絶対性能向上を示すことにより,最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-02-29T12:18:43Z) - LipSim: A Provably Robust Perceptual Similarity Metric [56.03417732498859]
敵攻撃に対するViTベースの特徴抽出器のアンサンブルに基づく,最先端の知覚的類似度指標の脆弱性を示す。
次に、証明可能な保証とともに、LipSimと呼ばれる堅牢な知覚的類似度メトリックをトレーニングするためのフレームワークを提案する。
LipSimは、各データポイント周辺の保護された領域と、$ell$ ball内のすべての摂動の証明書を提供する。
論文 参考訳(メタデータ) (2023-10-27T16:59:51Z) - A Geometrical Approach to Evaluate the Adversarial Robustness of Deep
Neural Networks [52.09243852066406]
対向収束時間スコア(ACTS)は、対向ロバストネス指標として収束時間を測定する。
我々は,大規模画像Netデータセットに対する異なる敵攻撃に対して,提案したACTSメトリックの有効性と一般化を検証する。
論文 参考訳(メタデータ) (2023-10-10T09:39:38Z) - Improving Adversarial Robustness of Masked Autoencoders via Test-time
Frequency-domain Prompting [133.55037976429088]
BERTプリトレーニング(BEiT, MAE)を備えた視覚変換器の対向ロバスト性について検討する。
意外な観察は、MAEが他のBERT事前訓練法よりも敵の頑健さが著しく悪いことである。
我々は,MAEの対角的堅牢性を高めるための,シンプルで効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-08-20T16:27:17Z) - PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant
Semantic Segmentation [50.556961575275345]
対向シーンにおけるセグメンテーションの堅牢性を促進するための認識認識型融合フレームワークを提案する。
我々は,先進の競争相手に比べて15.3% mIOUの利得で,ロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-08-08T01:55:44Z) - R-LPIPS: An Adversarially Robust Perceptual Similarity Metric [71.33812578529006]
本稿では,Robust Learned Perceptual Image Patch similarity(R-LPIPS)メトリクスを提案する。
R-LPIPSは、敵対的に訓練された深い特徴を活用する新しい指標である。
従来のLPIPSメトリックと比較して,R-LPIPSの優位性を示す。
論文 参考訳(メタデータ) (2023-07-27T19:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。