論文の概要: Navigating the Trade-off: A Synthesis of Defensive Strategies for Zero-Shot Adversarial Robustness in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.05237v1
- Date: Thu, 07 Aug 2025 10:26:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.814051
- Title: Navigating the Trade-off: A Synthesis of Defensive Strategies for Zero-Shot Adversarial Robustness in Vision-Language Models
- Title(参考訳): トレードオフをナビゲートする:視覚・言語モデルにおけるゼロショット逆ロバスト性のための防御戦略の合成
- Authors: Zane Xu, Jason Sun,
- Abstract要約: この領域における主要な課題は、敵の堅牢性を高め、モデルのゼロショット機能を維持することの間の本質的にのトレードオフである。
本稿では、モデルパラメータを修飾するAFT(Adversarial Fine-Tuning)と、それらを保存するトレーニングフリー/テストタイムディフェンスの2つの主要な防御パラダイムを分析する。
我々は、ハイブリッド防衛戦略や敵の事前訓練を含む重要な課題と今後の方向性を特定する。
- 参考スコア(独自算出の注目度): 1.172958471183989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report synthesizes eight seminal papers on the zero-shot adversarial robustness of vision-language models (VLMs) like CLIP. A central challenge in this domain is the inherent trade-off between enhancing adversarial robustness and preserving the model's zero-shot generalization capabilities. We analyze two primary defense paradigms: Adversarial Fine-Tuning (AFT), which modifies model parameters, and Training-Free/Test-Time Defenses, which preserve them. We trace the evolution from alignment-preserving methods (TeCoA) to embedding space re-engineering (LAAT, TIMA), and from input heuristics (AOM, TTC) to latent-space purification (CLIPure). Finally, we identify key challenges and future directions including hybrid defense strategies and adversarial pre-training.
- Abstract(参考訳): 本稿では,CLIPのような視覚言語モデル(VLM)のゼロショット対逆ロバスト性に関する8つの論文を合成する。
この領域における中心的な課題は、敵の堅牢性を高め、モデルのゼロショット一般化能力を維持することの間の本質的にのトレードオフである。
本稿では、モデルパラメータを修飾するAFT(Adversarial Fine-Tuning)と、それらを保存するトレーニングフリー/テストタイムディフェンスの2つの主要な防御パラダイムを分析する。
我々は,アライメント保存法 (TeCoA) から埋め込み空間再設計 (LAAT, TIMA) へ,入力ヒューリスティックス (AOM, TTC) から潜時空間浄化 (CLIPure) へ進化した。
最後に,ハイブリッド防衛戦略や対戦型事前訓練を含む重要な課題と今後の方向性を明らかにする。
関連論文リスト
- MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5022773312661]
本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。
まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。
そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文 参考訳(メタデータ) (2025-03-08T17:33:55Z) - REFINE: Inversion-Free Backdoor Defense via Model Reprogramming [60.554146386198376]
ディープニューラルネットワーク(DNN)に対するバックドア攻撃は、重大なセキュリティ脅威として浮上している。
モデル再プログラミングに基づく逆フリーバックドア防御手法であるREFINEを提案する。
論文 参考訳(メタデータ) (2025-02-22T07:29:12Z) - ShieldLearner: A New Paradigm for Jailbreak Attack Defense in LLMs [4.534938642552179]
ShieldLearnerは、防衛における人間の学習を模倣する新しいパラダイムである。
試行錯誤によって、アタックシグネチャを自動でパターンアトラスに蒸留する。
Adaptive Adversarial Augmentationは、防御されたプロンプトの逆のバリエーションを生成する。
論文 参考訳(メタデータ) (2025-02-16T18:47:41Z) - Defensive Dual Masking for Robust Adversarial Defense [5.932787778915417]
本稿では,このような攻撃に対するモデルロバスト性を高めるための新しいアプローチであるDDMアルゴリズムを提案する。
DDMは, [MASK]トークンをトレーニングサンプルに戦略的に挿入し, 対向的摂動をより効果的に扱うためのモデルを作成する, 独自の対向的トレーニング戦略を採用している。
推論中、潜在的な敵トークンは、入力のコアセマンティクスを保持しながら潜在的な脅威を中和するために、動的に[MASK]トークンに置き換えられる。
論文 参考訳(メタデータ) (2024-12-10T00:41:25Z) - CALoR: Towards Comprehensive Model Inversion Defense [43.2642796582236]
Model Inversion Attacks (MIAs)は、プライバシに敏感なトレーニングデータを、リリースされた機械学習モデルにエンコードされた知識から回復することを目的としている。
MIA分野の最近の進歩は、複数のシナリオにおける攻撃性能を大幅に向上させた。
信頼性適応と低ランク圧縮を統合した堅牢な防御機構を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:44:01Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z) - Stochastic Security: Adversarial Defense Using Long-Run Dynamics of
Energy-Based Models [82.03536496686763]
敵対的攻撃に対するディープ・ネットワークの脆弱性は、認識とセキュリティの両方の観点から、ディープ・ラーニングの中心的な問題である。
我々は,自然学習型分類器の保護に重点を置き,マルコフ・チェイン・モンテカルロ (MCMC) とエネルギーベースモデル (EBM) を併用して敵の浄化を行った。
本研究は,1)現実的な長期MCMCサンプルを用いたEMMの訓練方法の改善,2)防衛の理論的曖昧さを解消する期待・オフバー・トランスフォーメーション(EOT)ディフェンス,3)自然に訓練された分類器と競争的ディフェンスのための最先端の対人ディフェンス,である。
論文 参考訳(メタデータ) (2020-05-27T17:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。