論文の概要: Adversarial Examples Are Not Bugs, They Are Superposition
- arxiv url: http://arxiv.org/abs/2508.17456v2
- Date: Sat, 13 Sep 2025 23:06:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 15:23:16.361439
- Title: Adversarial Examples Are Not Bugs, They Are Superposition
- Title(参考訳): 逆の例はバグではなく、重ね合わせである
- Authors: Liv Gorton, Owen Lewis,
- Abstract要約: アドリラルな例は、深層学習の最も難解な現象の1つとして残されている。
重ね合わせは大きな寄与要因かもしれないし、主要な原因かもしれない。
重ね合わせは理論的には様々な逆転現象を説明できる。
- 参考スコア(独自算出の注目度): 0.17188280334580197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial examples -- inputs with imperceptible perturbations that fool neural networks -- remain one of deep learning's most perplexing phenomena despite nearly a decade of research. While numerous defenses and explanations have been proposed, there is no consensus on the fundamental mechanism. One underexplored hypothesis is that superposition, a concept from mechanistic interpretability, may be a major contributing factor, or even the primary cause. We present four lines of evidence in support of this hypothesis, greatly extending prior arguments by Elhage et al. (2022): (1) superposition can theoretically explain a range of adversarial phenomena, (2) in toy models, intervening on superposition controls robustness, (3) in toy models, intervening on robustness (via adversarial training) controls superposition, and (4) in ResNet18, intervening on robustness (via adversarial training) controls superposition.
- Abstract(参考訳): 10年近くの研究にもかかわらず、ニューラルネットワークを騙すような知覚不能な摂動を持つ敵対的な例は、ディープラーニングの最も複雑な現象の1つだ。
多くの防衛と説明が提案されているが、基本的なメカニズムについては合意が得られていない。
未解明の仮説の1つは、機械的解釈可能性の概念である重ね合わせが主要な寄与要因、あるいは主要な原因であるかもしれないというものである。
本仮説を裏付ける証拠は, エルヘージら (2022) による先述の議論を大きく広げる上で, (1) 重ね合わせは, 理論上は, 反対現象の範囲を説明できる, (2) 玩具モデルでは, 重ね合わせ制御の堅牢性に介入する, (3) 重ね合わせ制御の堅牢性に介入する, (3) 玩具モデルでは, 強靭性に介入する, ResNet18 では, 強靭性に介入する, (反対訓練を介して) 重ね合わせを制御できる。
関連論文リスト
- Controllable Logical Hypothesis Generation for Abductive Reasoning in Knowledge Graphs [54.596180382762036]
知識グラフの帰納的推論は、観測された実体からもっともらしい論理的仮説を生成することを目的としている。
可制御性の欠如により、単一の観測は、多くの妥当だが冗長あるいは無関係な仮説をもたらす可能性がある。
帰納的推論の実用性を改善するために,制御可能な仮説生成タスクを導入する。
論文 参考訳(メタデータ) (2025-05-27T09:36:47Z) - The Mirage of Multimodality: Where Truth is Tested and Honesty Unravels [22.497467057872377]
本研究は,マルチモーダル文脈におけるシステムIおよびシステムII推論に伴う歪みに関する最初の系統的研究である。
遅い推論モデルは、不完全あるいは誤解を招く視覚的入力を提示すると、欠陥のある推論をサポートするために、妥当で誤った詳細をつくり出す傾向にあることを実証する。
論文 参考訳(メタデータ) (2025-05-26T16:55:38Z) - Birds look like cars: Adversarial analysis of intrinsically interpretable deep learning [9.769695768744421]
設計による「本質的に」解釈可能なモデルの敵の操作に対する過度信頼と感受性に関連するリスクを強調した。
潜伏プロトタイプの使用によってモデルの推論を養うことは、ディープニューラルネットワークの本質的非解釈可能性を示す。
プロトタイプベースのネットワークの制限が報告されたことにより、信頼性と適用性に疑問が投げかけられた。
論文 参考訳(メタデータ) (2025-03-11T17:24:33Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - A Survey on Transferability of Adversarial Examples across Deep Neural Networks [53.04734042366312]
逆の例では、機械学習モデルを操作して誤った予測を行うことができます。
敵の例の転送可能性により、ターゲットモデルの詳細な知識を回避できるブラックボックス攻撃が可能となる。
本研究は, 対角移動可能性の展望を考察した。
論文 参考訳(メタデータ) (2023-10-26T17:45:26Z) - On Continuity of Robust and Accurate Classifiers [3.4410212782758043]
敵の訓練が仮説の堅牢性を向上させることが示されている。
仮説の頑健性と正確性は互いに相反していることが示唆されている。
本稿では,その頑健さと精度に相容れない仮説の連続性について,その代替案を提示する。
論文 参考訳(メタデータ) (2023-09-29T08:14:25Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z) - Verifying the Causes of Adversarial Examples [5.381050729919025]
ニューラルネットワークのロバスト性は、入力に対するほとんど知覚できない摂動を含む敵の例によって挑戦される。
本稿では,敵対的事例の潜在的な原因の収集と,慎重に設計された制御実験による検証(あるいは部分的に検証)を行う。
実験の結果, 幾何学的要因はより直接的な原因であり, 統計的要因は現象を増大させることが明らかとなった。
論文 参考訳(メタデータ) (2020-10-19T16:17:20Z) - Adversarial Examples on Object Recognition: A Comprehensive Survey [1.976652238476722]
深層ニューラルネットワークは、機械学習研究の最前線にある。
敵の例は、ネットワークの分散ドリフトに対する感度をテストするために意図的に設計されています。
ニューラルネットワークの安全性,安全性,堅牢性に対する敵の例の影響について論じる。
論文 参考訳(メタデータ) (2020-08-07T08:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。