論文の概要: Safety-Efficacy Trade Off: Robustness against Data-Poisoning
- arxiv url: http://arxiv.org/abs/2602.00822v1
- Date: Sat, 31 Jan 2026 17:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.4193
- Title: Safety-Efficacy Trade Off: Robustness against Data-Poisoning
- Title(参考訳): 安全効率のトレードオフ、データ汚染に対するロバスト性
- Authors: Diego Granziol,
- Abstract要約: バックドアとデータ中毒攻撃は、既存のスペクトルと最適化ベースの防御を回避しながら、高い攻撃成功を達成することができる。
この挙動は偶発的ではなく、入力空間における基本的な幾何学的メカニズムから生じることを示す。
本研究は,バックドアが本質的に見えない状態にあることを証明し,入力空間曲率による毒性,検出性,防御の第一端の特徴付けを行う。
- 参考スコア(独自算出の注目度): 2.273510537992342
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backdoor and data poisoning attacks can achieve high attack success while evading existing spectral and optimisation based defences. We show that this behaviour is not incidental, but arises from a fundamental geometric mechanism in input space. Using kernel ridge regression as an exact model of wide neural networks, we prove that clustered dirty label poisons induce a rank one spike in the input Hessian whose magnitude scales quadratically with attack efficacy. Crucially, for nonlinear kernels we identify a near clone regime in which poison efficacy remains order one while the induced input curvature vanishes, making the attack provably spectrally undetectable. We further show that input gradient regularisation contracts poison aligned Fisher and Hessian eigenmodes under gradient flow, yielding an explicit and unavoidable safety efficacy trade off by reducing data fitting capacity. For exponential kernels, this defence admits a precise interpretation as an anisotropic high pass filter that increases the effective length scale and suppresses near clone poisons. Extensive experiments on linear models and deep convolutional networks across MNIST and CIFAR 10 and CIFAR 100 validate the theory, demonstrating consistent lags between attack success and spectral visibility, and showing that regularisation and data augmentation jointly suppress poisoning. Our results establish when backdoors are inherently invisible, and provide the first end to end characterisation of poisoning, detectability, and defence through input space curvature.
- Abstract(参考訳): バックドアとデータ中毒攻撃は、既存のスペクトルと最適化ベースの防御を回避しながら、高い攻撃成功を達成することができる。
この挙動は偶発的ではなく、入力空間における基本的な幾何学的メカニズムから生じることを示す。
広いニューラルネットワークの正確なモデルとしてカーネルリッジ回帰を用いて、クラスタ化された汚いラベルの毒が、攻撃効率の2倍にスケールする入力ヘッセンにおいて、ランク1のスパイクを引き起こすことを証明した。
重要なことに、非線形カーネルでは、誘導された入力曲率が消える間、毒の効能が1位に保たれるに近いクローン状態が特定され、この攻撃は確実にスペクトル検出不能となる。
さらに, 入力勾配正則化は, 魚介類, ヘッセン種の固有成分を勾配流下で調整し, データ嵌合容量を減らし, 明示的かつ避けられない安全効果のトレードオフをもたらすことを示した。
指数核の場合、この防御は異方性ハイパスフィルタとして正確に解釈され、有効長のスケールを増大させ、クローン毒を抑える。
MNIST と CIFAR 10 と CIFAR 100 にまたがる線形モデルと深部畳み込みネットワークに関する広範な実験は、この理論を検証し、攻撃の成功とスペクトルの可視性の間に一貫した遅延を示し、正規化とデータ拡張が併用して中毒を抑えることを示した。
本研究は,バックドアが本質的に見えない状態にあることを証明し,入力空間曲率による毒性,検出性,防御の第一端の特徴付けを行う。
関連論文リスト
- The Eminence in Shadow: Exploiting Feature Boundary Ambiguity for Robust Backdoor Attacks [51.468144272905135]
深層ニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱なままでも重要なアプリケーションを支える。
バックドア攻撃を標的とした理論的解析を行い,不均質なモデル操作を実現するための疎い決定境界に着目した。
エミネンス(Eminence)は、理論的な保証と固有なステルス特性を持つ、説明可能で堅牢なブラックボックスバックドアフレームワークである。
論文 参考訳(メタデータ) (2025-12-11T08:09:07Z) - CopyrightShield: Enhancing Diffusion Model Security against Copyright Infringement Attacks [61.06621533874629]
拡散モデルは、攻撃者が戦略的に修正された非侵害画像をトレーニングセットに注入する著作権侵害攻撃に弱い。
まず、上記の攻撃に対して防御するための防御フレームワーク、PhiliptyShieldを提案する。
実験により,PhiliptyShieldは2つの攻撃シナリオで有毒なサンプル検出性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-12-02T14:19:44Z) - Robustness Inspired Graph Backdoor Defense [30.82433380830665]
グラフニューラルネットワーク(GNN)は,ノード分類やグラフ分類といったタスクにおいて,有望な結果を達成している。
最近の研究で、GNNはバックドア攻撃に弱いことが判明し、実際の採用に重大な脅威をもたらしている。
本研究では,裏口検出にランダムなエッジドロップを用いることにより,汚染ノードとクリーンノードを効率的に識別できることを理論的に示す。
論文 参考訳(メタデータ) (2024-06-14T08:46:26Z) - DiffAttack: Evasion Attacks Against Diffusion-Based Adversarial
Purification [63.65630243675792]
拡散に基づく浄化防御は拡散モデルを利用して、敵の例の人工摂動を除去する。
近年の研究では、先進的な攻撃でさえ、そのような防御を効果的に破壊できないことが示されている。
拡散型浄化防衛を効果的かつ効率的に行うための統合フレームワークDiffAttackを提案する。
論文 参考訳(メタデータ) (2023-10-27T15:17:50Z) - On Practical Aspects of Aggregation Defenses against Data Poisoning
Attacks [58.718697580177356]
悪意のあるトレーニングサンプルを持つディープラーニングモデルに対する攻撃は、データ中毒として知られている。
データ中毒に対する防衛戦略の最近の進歩は、認証された毒性の堅牢性を達成するためのアグリゲーション・スキームの有効性を強調している。
ここでは、Deep Partition Aggregation(ディープ・パーティション・アグリゲーション・アグリゲーション)、代表的アグリゲーション・ディフェンス(アグリゲーション・ディフェンス)に焦点を当て、効率、性能、堅牢性など、その実践的側面を評価する。
論文 参考訳(メタデータ) (2023-06-28T17:59:35Z) - PiDAn: A Coherence Optimization Approach for Backdoor Attack Detection
and Mitigation in Deep Neural Networks [22.900501880865658]
バックドア攻撃はディープニューラルネットワーク(DNN)に新たな脅威をもたらす
汚染されたデータを浄化するコヒーレンス最適化に基づくアルゴリズムであるPiDAnを提案する。
当社のPiDAnアルゴリズムは90%以上の感染クラスを検出でき、95%の有毒サンプルを識別できる。
論文 参考訳(メタデータ) (2022-03-17T12:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。