論文の概要: Adversarial Attacks Leverage Interference Between Features in Superposition
- arxiv url: http://arxiv.org/abs/2510.11709v1
- Date: Mon, 13 Oct 2025 17:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.502422
- Title: Adversarial Attacks Leverage Interference Between Features in Superposition
- Title(参考訳): 逆攻撃は重ね合わせにおける特徴間の干渉を緩和する
- Authors: Edward Stevinson, Lucas Prieto, Melih Barsbey, Tolga Birdal,
- Abstract要約: 敵の脆弱性は、ニューラルネットワークの効率的な情報符号化から生じる可能性があると我々は主張する。
具体的には、スーパーポジションが、敵が活用できる潜在表現の配列を生成する方法を示す。
- 参考スコア(独自算出の注目度): 22.16331063882095
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fundamental questions remain about when and why adversarial examples arise in neural networks, with competing views characterising them either as artifacts of the irregularities in the decision landscape or as products of sensitivity to non-robust input features. In this paper, we instead argue that adversarial vulnerability can stem from efficient information encoding in neural networks. Specifically, we show how superposition - where networks represent more features than they have dimensions - creates arrangements of latent representations that adversaries can exploit. We demonstrate that adversarial perturbations leverage interference between superposed features, making attack patterns predictable from feature arrangements. Our framework provides a mechanistic explanation for two known phenomena: adversarial attack transferability between models with similar training regimes and class-specific vulnerability patterns. In synthetic settings with precisely controlled superposition, we establish that superposition suffices to create adversarial vulnerability. We then demonstrate that these findings persist in a ViT trained on CIFAR-10. These findings reveal adversarial vulnerability can be a byproduct of networks' representational compression, rather than flaws in the learning process or non-robust inputs.
- Abstract(参考訳): ニューラルネットワークにはいつ、なぜ敵の例が生じるのかという根本的な疑問が残っており、競合する見解では、意思決定の状況における不規則性のアーティファクトとして、あるいは非破壊的な入力特徴に対する感受性の産物として、それらが特徴的である。
そこで,本稿では,ニューラルネットワークの効率的な情報符号化から,敵の脆弱性が引き起こされることを論じる。
具体的には、ネットワークが次元よりも多くの特徴を表現している重ね合わせが、敵が活用できる潜在表現の配列を生成する方法を示す。
対向摂動は重畳された特徴間の干渉を生かし、特徴配置から攻撃パターンを予測することを実証する。
我々のフレームワークは、2つの既知の現象の機械的説明を提供する: 類似の訓練規則を持つモデル間の敵攻撃伝達可能性とクラス固有の脆弱性パターンである。
精密に制御された人工的な重ね合わせでは、重ね合わせが敵の脆弱性を生み出すのに十分であることを示す。
CIFAR-10でトレーニングしたViTでは,これらの知見が持続することが実証された。
これらの結果から,敵の脆弱性は学習過程や非破壊入力の欠陥よりも,ネットワークの表現圧縮の副産物となる可能性が示唆された。
関連論文リスト
- Few-Shot Adversarial Prompt Learning on Vision-Language Models [62.50622628004134]
知覚不能な逆境摂動に対するディープニューラルネットワークの脆弱性は、広く注目を集めている。
それまでの努力は、相手の視覚的特徴をテキストの監督と整合させることで、ゼロショットの敵の堅牢性を達成した。
本稿では、限られたデータで入力シーケンスを適応させることで、対向性を大幅に向上させる、数ショットの対向的プロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:28:43Z) - Towards Improving Robustness Against Common Corruptions in Object
Detectors Using Adversarial Contrastive Learning [10.27974860479791]
本稿では, ニューラルネットワークの強靭性向上と, 対人攻撃と共通汚職の同時防止を目的とした, 革新的な対人的コントラスト学習フレームワークを提案する。
対戦型および実世界の条件下での性能向上に焦点を合わせることで、安全クリティカルなアプリケーションにおけるニューラルネットワークの堅牢性を高めることを目的としている。
論文 参考訳(メタデータ) (2023-11-14T06:13:52Z) - A Survey on Transferability of Adversarial Examples across Deep Neural Networks [53.04734042366312]
逆の例では、機械学習モデルを操作して誤った予測を行うことができます。
敵の例の転送可能性により、ターゲットモデルの詳細な知識を回避できるブラックボックス攻撃が可能となる。
本研究は, 対角移動可能性の展望を考察した。
論文 参考訳(メタデータ) (2023-10-26T17:45:26Z) - Investigating Human-Identifiable Features Hidden in Adversarial
Perturbations [54.39726653562144]
我々の研究では、最大5つの攻撃アルゴリズムを3つのデータセットにわたって探索する。
対人摂動における人間の識別可能な特徴を同定する。
画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルに妥協する能力を実証する。
論文 参考訳(メタデータ) (2023-09-28T22:31:29Z) - Spatial-Frequency Discriminability for Revealing Adversarial Perturbations [53.279716307171604]
敵の摂動に対するディープニューラルネットワークの脆弱性は、コンピュータビジョンコミュニティで広く認識されている。
現在のアルゴリズムは、通常、自然および敵対的なデータの識別的分解を通じて、敵のパターンを検出する。
空間周波数Krawtchouk分解に基づく識別検出器を提案する。
論文 参考訳(メタデータ) (2023-05-18T10:18:59Z) - Mitigating Adversarial Attacks in Deepfake Detection: An Exploration of
Perturbation and AI Techniques [1.0718756132502771]
敵の例は微妙な摂動で きれいな画像やビデオに 巧みに注入される
ディープフェイクは世論を操り、世論の評判を損なう強力なツールとして登場した。
この記事では、多面的な敵の例の世界を掘り下げ、ディープラーニングアルゴリズムを騙す能力の背後にある原則を解明する。
論文 参考訳(メタデータ) (2023-02-22T23:48:19Z) - Searching for the Essence of Adversarial Perturbations [73.96215665913797]
本稿では,ニューラルネットワークの誤予測の原因となる,人間の認識可能な情報を含む対人摂動について述べる。
この人間の認識可能な情報の概念は、敵の摂動に関連する重要な特徴を説明できる。
論文 参考訳(メタデータ) (2022-05-30T18:04:57Z) - Masking Adversarial Damage: Finding Adversarial Saliency for Robust and
Sparse Network [33.18197518590706]
敵対的な例は、ディープニューラルネットワークの弱い信頼性と潜在的なセキュリティ問題を引き起こす。
本稿では, 対向的損失の2次情報を利用した新しい対向的プルーニング手法, Masking Adversarial damage (MAD)を提案する。
我々は,MADが敵の強靭性を損なうことなく敵の訓練網を効果的に突破し,従来の敵のプルーニング手法よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-04-06T11:28:06Z) - Adversarial Perturbations Are Not So Weird: Entanglement of Robust and
Non-Robust Features in Neural Network Classifiers [4.511923587827301]
標準的な方法でトレーニングされたニューラルネットワークでは、ロバストでない機能は、小さな"非セマンティック"パターンに反応する。
逆の例は、これらの小さな絡み合ったパターンに対する、最小限の摂動によって形成できます。
論文 参考訳(メタデータ) (2021-02-09T20:21:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。