論文の概要: CLIPure: Purification in Latent Space via CLIP for Adversarially Robust Zero-Shot Classification
- arxiv url: http://arxiv.org/abs/2502.18176v1
- Date: Tue, 25 Feb 2025 13:09:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:00.993253
- Title: CLIPure: Purification in Latent Space via CLIP for Adversarially Robust Zero-Shot Classification
- Title(参考訳): CLIPure: 逆ロバストゼロショット分類のためのCLIPによる潜時空間の浄化
- Authors: Mingkun Zhang, Keping Bi, Wei Chen, Jiafeng Guo, Xueqi Cheng,
- Abstract要約: 画像とテキストプロンプトをマッチングすることでゼロショット分類を行うことができる、視覚言語で事前訓練されたエンコーダモデルであるCLIPについて検討する。
次に, 共分散精製プロセス間のKL分散として精製リスクを定式化する。
画像の潜伏ベクトルの確率をモデル化するCLI-Diffと、画像の埋め込みとaの写真とのコサイン類似度をモデル化するCLI-Cosの2つのバリエーションを提案する。
- 参考スコア(独自算出の注目度): 65.46685389276443
- License:
- Abstract: In this paper, we aim to build an adversarially robust zero-shot image classifier. We ground our work on CLIP, a vision-language pre-trained encoder model that can perform zero-shot classification by matching an image with text prompts ``a photo of a <class-name>.''. Purification is the path we choose since it does not require adversarial training on specific attack types and thus can cope with any foreseen attacks. We then formulate purification risk as the KL divergence between the joint distributions of the purification process of denoising the adversarial samples and the attack process of adding perturbations to benign samples, through bidirectional Stochastic Differential Equations (SDEs). The final derived results inspire us to explore purification in the multi-modal latent space of CLIP. We propose two variants for our CLIPure approach: CLIPure-Diff which models the likelihood of images' latent vectors with the DiffusionPrior module in DaLLE-2 (modeling the generation process of CLIP's latent vectors), and CLIPure-Cos which models the likelihood with the cosine similarity between the embeddings of an image and ``a photo of a.''. As far as we know, CLIPure is the first purification method in multi-modal latent space and CLIPure-Cos is the first purification method that is not based on generative models, which substantially improves defense efficiency. We conducted extensive experiments on CIFAR-10, ImageNet, and 13 datasets that previous CLIP-based defense methods used for evaluating zero-shot classification robustness. Results show that CLIPure boosts the SOTA robustness by a large margin, e.g., from 71.7% to 91.1% on CIFAR10, from 59.6% to 72.6% on ImageNet, and 108% relative improvements of average robustness on the 13 datasets over previous SOTA. The code is available at https://github.com/TMLResearchGroup-CAS/CLIPure.
- Abstract(参考訳): 本稿では,逆向きに頑健なゼロショット画像分類器を構築することを目的とする。
画像に<class-name>の写真を表示することで、ゼロショット分類を行うことができる視覚言語事前学習エンコーダモデルであるCLIPについて検討する。
と。
特定の攻撃タイプに対する敵の訓練を必要とせず、従っていかなる前向きな攻撃にも対処できるため、浄化は私たちが選択する道です。
次に, 両方向確率微分方程式(SDE)を用いて, 対向検体を識別する浄化過程のKL分布と, 良性検体に摂動を加える攻撃過程との相違点として, 浄化リスクを定式化する。
最終結果はCLIPの多モード潜伏空間における清浄の探求を刺激した。
CLIPure-DiffはDiffusionPriorモジュールをDaLLE-2(CLIPの潜伏ベクトルの生成過程をモデル化する)で画像の潜伏ベクトルの確率をモデル化し、CLIPure-Cosは画像の埋め込みと「aの写真」のコサイン類似度で確率をモデル化する。
と。
私たちの知る限り、CLIPureはマルチモーダル潜在空間における最初の浄化法であり、CLIPure-Cosは生成モデルに基づいていない最初の浄化法であり、防衛効率を大幅に向上させる。
CIFAR-10, ImageNet, および13のデータセットに対して, ゼロショット分類ロバスト性を評価するために, 従来のCLIPベースの防御手法を用いた広範な実験を行った。
CIFAR10では71.7%から91.1%、ImageNetでは59.6%から72.6%、以前のSOTAよりも平均ロバストネスが108%向上した。
コードはhttps://github.com/TMLResearchGroup-CAS/CLIPureで公開されている。
関連論文リスト
- ZeroPur: Succinct Training-Free Adversarial Purification [52.963392510839284]
敵の粛清は、様々な目に見えない敵の攻撃を防御できる防衛計算手法の一種である。
我々は、ZeroPurと呼ばれる、逆画像の浄化を更なる訓練なしに簡単な逆画像浄化法を提案する。
論文 参考訳(メタデータ) (2024-06-05T10:58:15Z) - Transductive Zero-Shot and Few-Shot CLIP [24.592841797020203]
本稿では,トランスダクティブなゼロショットと少数ショットのCLIP分類問題に対処する。
推論は、各インスタンスを独立して扱うのではなく、ラベルのないクエリサンプルのミニバッチで共同で実行される。
提案手法は,CLIPのゼロショット性能に対して,画像ネットの精度を約20%向上させる。
論文 参考訳(メタデータ) (2024-04-08T12:44:31Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - ContraCluster: Learning to Classify without Labels by Contrastive
Self-Supervision and Prototype-Based Semi-Supervision [7.819942809508631]
本研究では,クラスタリングとコントラスト型自己教師学習の能力を組み合わせた教師なし画像分類手法であるContraClusterを提案する。
ContraClusterは、(1)コントラスト型自己監督型事前訓練(CPT)、(2)コントラスト型プロトタイプサンプリング(CPS)、(3)プロトタイプ型半教師型微調整(PB-SFT)の3段階からなる。
我々は、CIFAR-10、STL-10、ImageNet-10などの標準ベンチマークデータセットに対して、ContraClusterが新しい最先端結果を達成することを実証的に示す。
論文 参考訳(メタデータ) (2023-04-19T01:51:08Z) - (Certified!!) Adversarial Robustness for Free! [116.6052628829344]
逆方向の摂動が0.5の2ノルム以内であることに制約された場合,ImageNetでは71%の精度が証明された。
これらの結果は,モデルパラメータの微調整や再学習を必要とせず,事前学習した拡散モデルと画像分類器のみを用いて得られる。
論文 参考訳(メタデータ) (2022-06-21T17:27:27Z) - Diffusion Models for Adversarial Purification [69.1882221038846]
対人浄化(Adrial purification)とは、生成モデルを用いて敵の摂動を除去する防衛方法の分類である。
そこで我々は,拡散モデルを用いたDiffPureを提案する。
提案手法は,現在の対人訓練および対人浄化方法よりも優れ,最先端の成果を達成する。
論文 参考訳(メタデータ) (2022-05-16T06:03:00Z) - ReCLIP: A Strong Zero-Shot Baseline for Referring Expression
Comprehension [114.85628613911713]
大規模事前学習モデルは領域間の画像分類に有用である。
ReCLIPは単純だが強力なゼロショットベースラインであり、ReCのための最先端の大規模モデルであるCLIPを再利用する。
論文 参考訳(メタデータ) (2022-04-12T17:55:38Z) - Adaptive Clustering of Robust Semantic Representations for Adversarial
Image Purification [0.9203366434753543]
我々は、モデルに依存しず、目に見えない敵に対して汎用可能な、敵対攻撃に対する堅牢な防御を提案します。
本稿では,各クラスの潜在表現を抽出し,意味的類似性を持つ潜在表現を適応的にクラスタ化する。
我々は、逆空間表現と真のクラスタ分布の間の距離を最小化するために、潜空間表現を制限する新しいモデルを逆向きに訓練する。
論文 参考訳(メタデータ) (2021-04-05T21:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。