論文の概要: EigenShield: Causal Subspace Filtering via Random Matrix Theory for Adversarially Robust Vision-Language Models
- arxiv url: http://arxiv.org/abs/2502.14976v1
- Date: Thu, 20 Feb 2025 19:10:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:11:23.922831
- Title: EigenShield: Causal Subspace Filtering via Random Matrix Theory for Adversarially Robust Vision-Language Models
- Title(参考訳): EigenShield: 逆ロバスト視覚言語モデルに対するランダム行列理論による因果部分空間フィルタリング
- Authors: Nastaran Darabi, Devashri Naik, Sina Tayebati, Dinithi Jayasuriya, Ranganath Krishnan, Amit Ranjan Trivedi,
- Abstract要約: 視覚言語モデル(VLM)は、大規模言語モデル(LLM)の敵対的脆弱性を継承する。
敵の訓練、入力、検出を含む既存の防御は、計算コストが高く、アーキテクチャに依存し、適応攻撃に対して脆弱である。
我々は,高次元VLM表現における逆転破壊を定量化するためにランダム行列理論を利用した推定時防御法であるEigenShieldを紹介する。
- 参考スコア(独自算出の注目度): 3.958317527488534
- License:
- Abstract: Vision-Language Models (VLMs) inherit adversarial vulnerabilities of Large Language Models (LLMs), which are further exacerbated by their multimodal nature. Existing defenses, including adversarial training, input transformations, and heuristic detection, are computationally expensive, architecture-dependent, and fragile against adaptive attacks. We introduce EigenShield, an inference-time defense leveraging Random Matrix Theory to quantify adversarial disruptions in high-dimensional VLM representations. Unlike prior methods that rely on empirical heuristics, EigenShield employs the spiked covariance model to detect structured spectral deviations. Using a Robustness-based Nonconformity Score (RbNS) and quantile-based thresholding, it separates causal eigenvectors, which encode semantic information, from correlational eigenvectors that are susceptible to adversarial artifacts. By projecting embeddings onto the causal subspace, EigenShield filters adversarial noise without modifying model parameters or requiring adversarial training. This architecture-independent, attack-agnostic approach significantly reduces the attack success rate, establishing spectral analysis as a principled alternative to conventional defenses. Our results demonstrate that EigenShield consistently outperforms all existing defenses, including adversarial training, UNIGUARD, and CIDER.
- Abstract(参考訳): VLM(Vision-Language Models)は、Large Language Models (LLM) の敵対的脆弱性を継承する。
対戦訓練、入力変換、ヒューリスティック検出を含む既存の防御は、計算コストが高く、アーキテクチャに依存し、適応攻撃に対して脆弱である。
我々は,高次元VLM表現における逆転破壊を定量化するためにランダム行列理論を利用した推定時防御法であるEigenShieldを紹介する。
経験的ヒューリスティックスに依存する従来の方法とは異なり、EigenShieldは、構造的スペクトル偏差を検出するためにスパイクされた共分散モデルを使用している。
ロバストネスに基づく非整合スコア(RbNS)と量子ベースのしきい値処理を用いて、意味情報をエンコードする因果固有ベクトルを、敵対的アーティファクトに感受性のある相関固有ベクトルから分離する。
因果部分空間に埋め込みを投影することにより、EigenShieldはモデルパラメータを変更することなく、あるいは逆方向のトレーニングを必要とせずに、逆方向のノイズをフィルタする。
このアーキテクチャに依存しない、攻撃に依存しないアプローチは、攻撃の成功率を著しく低下させ、スペクトル分析を従来の防御法に代わる原則として確立する。
以上の結果から,EigenShieldは敵の訓練,UNIGUARD,CIDERなど,既存の防衛を一貫して上回っていることが示唆された。
関連論文リスト
- MOREL: Enhancing Adversarial Robustness through Multi-Objective Representation Learning [1.534667887016089]
ディープニューラルネットワーク(DNN)は、わずかに敵対的な摂動に対して脆弱である。
トレーニング中の強力な特徴表現学習は、元のモデルの堅牢性を大幅に向上させることができることを示す。
本稿では,多目的特徴表現学習手法であるMORELを提案する。
論文 参考訳(メタデータ) (2024-10-02T16:05:03Z) - Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - PuriDefense: Randomized Local Implicit Adversarial Purification for
Defending Black-box Query-based Attacks [15.842917276255141]
ブラックボックスクエリベースの攻撃は機械学習・アズ・ア・サービス(ML)システムに脅威を与える。
低レベルの推論コストで軽量な浄化モデルのアンサンブルでランダムなパッチワイズ処理を施した効率的な防御機構であるPuriDefenseを提案する。
我々の理論的分析は、ランダム性を浄化に組み込むことで、クエリベースの攻撃の収束を遅くすることを示唆している。
論文 参考訳(メタデータ) (2024-01-19T09:54:23Z) - Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Resisting Adversarial Attacks in Deep Neural Networks using Diverse
Decision Boundaries [12.312877365123267]
深層学習システムは、人間の目には認識できないが、モデルが誤分類される可能性がある、人工的な敵の例に弱い。
我々は,オリジナルモデルに対する多様な決定境界を持つディフェンダーモデルを構築するための,アンサンブルに基づく新しいソリューションを開発した。
我々は、MNIST、CIFAR-10、CIFAR-100といった標準画像分類データセットを用いて、最先端の敵攻撃に対する広範な実験を行った。
論文 参考訳(メタデータ) (2022-08-18T08:19:26Z) - Bilateral Dependency Optimization: Defending Against Model-inversion
Attacks [61.78426165008083]
本稿では,モデル反転攻撃に対する二元的依存性最適化(BiDO)戦略を提案する。
BiDOは、さまざまなデータセット、分類器、MI攻撃に対する最先端の防御性能を達成する。
論文 参考訳(メタデータ) (2022-06-11T10:07:03Z) - Clustering Effect of (Linearized) Adversarial Robust Models [60.25668525218051]
本稿では, 敵の強靭性に対する新たな理解を提案し, ドメイン適応や頑健性向上といったタスクに適用する。
提案したクラスタリング戦略の合理性と優越性を実験的に評価した。
論文 参考訳(メタデータ) (2021-11-25T05:51:03Z) - Generating Out of Distribution Adversarial Attack using Latent Space
Poisoning [5.1314136039587925]
本稿では,実際の画像が破損しない敵の例を生成する新しいメカニズムを提案する。
潜在空間表現は、画像の固有構造を改ざんするために利用される。
勾配ベースの攻撃とは対照的に、潜時空間中毒は、トレーニングデータセットの独立かつ同一分布をモデル化する分類器の傾きを利用する。
論文 参考訳(メタデータ) (2020-12-09T13:05:44Z) - TREND: Transferability based Robust ENsemble Design [6.663641564969944]
本稿では, ネットワークアーキテクチャ, 入力, 重量, アクティベーションの量子化が, 対向サンプルの転送性に及ぼす影響について検討する。
本研究では,ソースとターゲット間の入力量子化によってトランスファービリティが著しく阻害されていることを示す。
我々は、これに対抗するために、新しい最先端のアンサンブル攻撃を提案する。
論文 参考訳(メタデータ) (2020-08-04T13:38:14Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。