論文の概要: Certifiers Make Neural Networks Vulnerable to Availability Attacks
- arxiv url: http://arxiv.org/abs/2108.11299v5
- Date: Tue, 3 Oct 2023 13:08:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 11:19:10.654686
- Title: Certifiers Make Neural Networks Vulnerable to Availability Attacks
- Title(参考訳): ニューラルネットワークのアベイラビリティアタックに対する脆弱性を認定する
- Authors: Tobias Lorenz, Marta Kwiatkowska, Mario Fritz
- Abstract要約: 私たちは初めて、逆転戦略が敵によって意図的に引き起こされる可能性があることを示します。
いくつかの入力や摂動のために自然に発生する障害に加えて、敵は故意にフォールバックを誘発するために訓練時間攻撃を使用することができる。
我々は2つの新しいアベイラビリティーアタックを設計し、これらの脅威の実用的妥当性を示す。
- 参考スコア(独自算出の注目度): 70.69104148250614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To achieve reliable, robust, and safe AI systems, it is vital to implement
fallback strategies when AI predictions cannot be trusted. Certifiers for
neural networks are a reliable way to check the robustness of these
predictions. They guarantee for some predictions that a certain class of
manipulations or attacks could not have changed the outcome. For the remaining
predictions without guarantees, the method abstains from making a prediction,
and a fallback strategy needs to be invoked, which typically incurs additional
costs, can require a human operator, or even fail to provide any prediction.
While this is a key concept towards safe and secure AI, we show for the first
time that this approach comes with its own security risks, as such fallback
strategies can be deliberately triggered by an adversary. In addition to
naturally occurring abstains for some inputs and perturbations, the adversary
can use training-time attacks to deliberately trigger the fallback with high
probability. This transfers the main system load onto the fallback, reducing
the overall system's integrity and/or availability. We design two novel
availability attacks, which show the practical relevance of these threats. For
example, adding 1% poisoned data during training is sufficient to trigger the
fallback and hence make the model unavailable for up to 100% of all inputs by
inserting the trigger. Our extensive experiments across multiple datasets,
model architectures, and certifiers demonstrate the broad applicability of
these attacks. An initial investigation into potential defenses shows that
current approaches are insufficient to mitigate the issue, highlighting the
need for new, specific solutions.
- Abstract(参考訳): 信頼性があり堅牢で安全なAIシステムを実現するためには、AI予測が信頼できない場合にフォールバック戦略を実装することが不可欠である。
ニューラルネットワークの証明器は、これらの予測の堅牢性をチェックする信頼できる方法である。
彼らは特定の種類の操作や攻撃が結果を変えられないという予測を保証した。
保証のない残りの予測では、この方法は予測を妨げ、通常追加のコストを発生させるフォールバック戦略を呼び出す必要がある。
これは安全でセキュアなAIに対する重要な概念ですが、このアプローチが独自のセキュリティリスクを伴っていることを初めて示します。
いくつかの入力や摂動に対して自然に発生する障害に加えて、敵は訓練時攻撃を使用して、高い確率でフォールバックを意図的に引き起こすことができる。
これにより、メインシステムの負荷をフォールバックに転送し、システム全体の整合性と可用性を低下させる。
我々は2つの新しいアベイラビリティーアタックを設計し、これらの脅威の実用的妥当性を示す。
例えば、トレーニング中に1%の有毒データを追加することは、フォールバックを引き起こすのに十分であり、モデルがトリガーを挿入することで、入力の最大100%を利用できなくなる。
複数のデータセット、モデルアーキテクチャ、証明器をまたいだ広範な実験は、これらの攻撃の幅広い適用性を示しています。
潜在的な防衛に関する最初の調査は、現在のアプローチが問題を緩和するには不十分であることを示し、新しい特定のソリューションの必要性を強調している。
関連論文リスト
- IMBERT: Making BERT Immune to Insertion-based Backdoor Attacks [45.81957796169348]
バックドア攻撃は、機械学習モデルに対する汚いセキュリティ脅威だ。
IMBERTは、被害者モデルから得られた勾配または自己注意スコアを用いて、バックドア攻撃に対する自己防衛を行う。
我々の実証研究は、IMBERTが挿入されたトリガーの98.5%を効果的に識別できることを示した。
論文 参考訳(メタデータ) (2023-05-25T22:08:57Z) - Availability Adversarial Attack and Countermeasures for Deep
Learning-based Load Forecasting [1.4112444998191698]
ディープニューラルネットワークは敵の攻撃を受けやすい。
本稿では,攻撃者がより容易に実装可能な,アベイラビリティに基づく敵攻撃を提案する。
敵の訓練アルゴリズムは、アベイラビリティーアタックに対するロバスト性を大幅に改善する。
論文 参考訳(メタデータ) (2023-01-04T21:54:32Z) - RobustSense: Defending Adversarial Attack for Secure Device-Free Human
Activity Recognition [37.387265457439476]
我々は、共通の敵攻撃を防御する新しい学習フレームワーク、RobustSenseを提案する。
本手法は,無線による人間行動認識と人物識別システムに有効である。
論文 参考訳(メタデータ) (2022-04-04T15:06:03Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z) - Black-box Detection of Backdoor Attacks with Limited Information and
Data [56.0735480850555]
モデルへのクエリアクセスのみを用いてバックドア攻撃を同定するブラックボックスバックドア検出(B3D)手法を提案する。
バックドア検出に加えて,同定されたバックドアモデルを用いた信頼性の高い予測手法を提案する。
論文 参考訳(メタデータ) (2021-03-24T12:06:40Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z) - Weight Poisoning Attacks on Pre-trained Models [103.19413805873585]
本研究は, バックドアを微調整した後に, バックドアを露出する脆弱性を伴って, 事前訓練した重量を注入した場合に, 重量中毒を発生させることが可能であることを示す。
感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用可能であり,深刻な脅威となることが示された。
論文 参考訳(メタデータ) (2020-04-14T16:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。