論文の概要: Defending Against Unforeseen Failure Modes with Latent Adversarial Training
- arxiv url: http://arxiv.org/abs/2403.05030v3
- Date: Mon, 1 Apr 2024 21:32:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 08:19:18.767210
- Title: Defending Against Unforeseen Failure Modes with Latent Adversarial Training
- Title(参考訳): 遅発性逆行訓練による予期せぬ障害モードの予防
- Authors: Stephen Casper, Lennart Schulze, Oam Patel, Dylan Hadfield-Menell,
- Abstract要約: 赤いチームと敵の訓練(AT)は、強靭性を改善するために一般的に使用される。
本研究では,LAT(Latent Adversarial Training)を用いて,脆弱性を誘発する入力を発生させることなく脆弱性を防御する。
- 参考スコア(独自算出の注目度): 7.141982906162117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite extensive diagnostics and debugging by developers, AI systems sometimes exhibit harmful unintended behaviors. Finding and fixing these is challenging because the attack surface is so large -- it is not tractable to exhaustively search for inputs that may elicit harmful behaviors. Red-teaming and adversarial training (AT) are commonly used to improve robustness, however, they empirically struggle to fix failure modes that differ from the attacks used during training. In this work, we utilize latent adversarial training (LAT) to defend against vulnerabilities without generating inputs that elicit them. LAT leverages the compressed, abstract, and structured latent representations of concepts that the network actually uses for prediction. We use it to remove trojans and defend against held-out classes of adversarial attacks. We show in image classification, text classification, and text generation tasks that LAT usually improves both robustness to novel attacks and performance on clean data relative to AT. This suggests that LAT can be a promising tool for defending against failure modes that are not explicitly identified by developers.
- Abstract(参考訳): 開発者による広範な診断とデバッグにもかかわらず、AIシステムは時に有害な意図しない振る舞いを示す。
攻撃面があまりに大きく、有害な行動を引き起こす可能性のある入力を徹底的に探すことは困難である。
赤いチームと敵の訓練(AT)は、強靭性を改善するために一般的に使用されるが、訓練中に使用される攻撃とは異なる障害モードの修正に経験的に苦労している。
本研究では,LAT(Latent Adversarial Training)を用いて,脆弱性を誘発する入力を発生させることなく脆弱性を防御する。
LATは、ネットワークが実際に予測に使用している概念の圧縮、抽象、構造化された潜在表現を利用する。
我々は、トロイの木馬を排除し、敵の攻撃を抑えるためにそれを使う。
画像分類, テキスト分類, テキスト生成タスクにおいて, LATは通常, 新規攻撃に対する堅牢性と, AT に対するクリーンデータの性能を向上することを示す。
これは、LATが開発者によって明確に特定されていない障害モードを防御するための有望なツールになり得ることを示唆している。
関連論文リスト
- Language Guided Adversarial Purification [3.9931474959554496]
生成モデルを用いた対向浄化は、強い対向防御性能を示す。
新しいフレームワーク、Language Guided Adversarial Purification (LGAP)は、事前訓練された拡散モデルとキャプションジェネレータを利用する。
論文 参考訳(メタデータ) (2023-09-19T06:17:18Z) - Adversary Aware Continual Learning [3.3439097577935213]
Adversaryは、テスト時に特定のタスクやクラスを意図的に忘れるように、少量の誤報をモデルに導入することができる。
我々は,攻撃者のバックドアパターンを人間には認識不能にすることで,攻撃者の主要な強みを隠蔽し,攻撃者の知覚不能パターンを超過する知覚的(強者)パターンを学習することを提案する。
提案手法は,攻撃者の目標タスク,攻撃者の目標クラス,攻撃者の許容できないパターンを知らずに,クラスインクリメンタル学習アルゴリズムの性能を著しく向上させることを示す。
論文 参考訳(メタデータ) (2023-04-27T19:49:50Z) - Improved Adversarial Training Through Adaptive Instance-wise Loss
Smoothing [5.1024659285813785]
敵の訓練は、このような敵の攻撃に対する最も成功した防御であった。
本稿では,新たな対人訓練手法を提案する。
本手法は,$ell_infty$-norm制約攻撃に対する最先端のロバスト性を実現する。
論文 参考訳(メタデータ) (2023-03-24T15:41:40Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - Universal Adversarial Training with Class-Wise Perturbations [78.05383266222285]
敵の訓練は 敵の攻撃を防御するために 最も広く使われる方法です
この作業では、UAPがすべてのクラスを等しく攻撃しないことがわかります。
我々は,対人訓練におけるクラスワイドUAPの利用を提案することで,SOTA UATを改善した。
論文 参考訳(メタデータ) (2021-04-07T09:05:49Z) - Combating Adversaries with Anti-Adversaries [118.70141983415445]
特に、我々の層は、逆の層とは反対の方向に入力摂動を生成します。
我々は,我々の階層と名目および頑健に訓練されたモデルを組み合わせることで,我々のアプローチの有効性を検証する。
我々の対向層は、クリーンな精度でコストを伴わずにモデルロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2021-03-26T09:36:59Z) - Proper Network Interpretability Helps Adversarial Robustness in
Classification [91.39031895064223]
本稿では,解釈の適切な測定を行うことで,予測回避攻撃が解釈の不一致を引き起こすのを防ぐことは困難であることを示す。
我々は,頑健な解釈の促進にのみ焦点をあてて,解釈可能性に配慮した防御手法を開発した。
その結果,我々の防衛力は,強靭な分類と頑健な解釈の両方を達成し,大規模な摂動攻撃に対する最先端の対人訓練方法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-26T01:31:31Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z) - Adversarial Feature Desensitization [12.401175943131268]
本稿では,ドメイン適応分野からの洞察を基盤とした,対向ロバスト性に対する新しいアプローチを提案する。
提案手法は,入力の逆方向の摂動に対して不変な特徴を学習することを目的として,AFD(Adversarial Feature Desensitization)と呼ばれる。
論文 参考訳(メタデータ) (2020-06-08T14:20:02Z) - Targeted Forgetting and False Memory Formation in Continual Learners
through Adversarial Backdoor Attacks [2.830541450812474]
破滅的な忘れ物を避けるために,一般的な連続学習アルゴリズムであるElastic Weight Consolidation (EWC)の脆弱性について検討する。
知的敵は、EWCの防御を回避でき、訓練中に少量の誤報をモデルに導入することで、段階的かつ故意に忘れることを引き起こす。
MNISTデータセットの置換型と分割型の両方に"バックドア"攻撃サンプルを注入することで、モデルの制御を前提とする敵の能力を実証する。
論文 参考訳(メタデータ) (2020-02-17T18:13:09Z) - Testing Robustness Against Unforeseen Adversaries [54.75108356391557]
対向ロバストネスの研究は主にL_p摂動に焦点を当てている。
現実世界のアプリケーションでは、開発者はシステムが直面するあらゆる攻撃や汚職にアクセスできる可能性は低い。
我々は、予期せぬ敵に対して、モデルロバスト性を評価するためのフレームワークであるImageNet-UAを紹介する。
論文 参考訳(メタデータ) (2019-08-21T17:36:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。