論文の概要: Defending Against Unforeseen Failure Modes with Latent Adversarial Training
- arxiv url: http://arxiv.org/abs/2403.05030v4
- Date: Thu, 22 Aug 2024 00:24:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 19:35:21.509001
- Title: Defending Against Unforeseen Failure Modes with Latent Adversarial Training
- Title(参考訳): 遅発性逆行訓練による予期せぬ障害モードの予防
- Authors: Stephen Casper, Lennart Schulze, Oam Patel, Dylan Hadfield-Menell,
- Abstract要約: 赤いチームと敵の訓練(AT)は、強靭性を改善するために一般的に使用される。
本研究では,LAT(Latent Adversarial Training)を用いて脆弱性に対する防御を行う。
画像分類, テキスト分類, テキスト生成タスクにおいて, LATは通常, 新規攻撃に対する堅牢性と, AT に対するクリーンデータの性能を向上することを示す。
- 参考スコア(独自算出の注目度): 7.141982906162117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite extensive diagnostics and debugging by developers, AI systems sometimes exhibit harmful unintended behaviors. Finding and fixing these is challenging because the attack surface is so large -- it is not tractable to exhaustively search for inputs that may elicit harmful behaviors. Red-teaming and adversarial training (AT) are commonly used to improve robustness, however, they empirically struggle to fix failure modes that differ from the attacks used during training. In this work, we utilize latent adversarial training (LAT) to defend against vulnerabilities without leveraging knowledge of what they are or using inputs that elicit them. LAT makes use of the compressed, abstract, and structured latent representations of concepts that the network actually uses for prediction. Here, we use it to defend against failure modes without examples that elicit them. Specifically, we use LAT to remove trojans and defend against held-out classes of adversarial attacks. We show in image classification, text classification, and text generation tasks that LAT usually improves both robustness to novel attacks and performance on clean data relative to AT. This suggests that LAT can be a promising tool for defending against failure modes that are not explicitly identified by developers.
- Abstract(参考訳): 開発者による広範な診断とデバッグにもかかわらず、AIシステムは時に有害な意図しない振る舞いを示す。
攻撃面があまりに大きく、有害な行動を引き起こす可能性のある入力を徹底的に探すことは困難である。
赤いチームと敵の訓練(AT)は、強靭性を改善するために一般的に使用されるが、訓練中に使用される攻撃とは異なる障害モードの修正に経験的に苦労している。
本研究では,潜時対人訓練(LAT)を用いて,脆弱性に対する防御を行う。
LATは、ネットワークが実際に予測に使用している概念の圧縮、抽象、構造化された潜在表現を利用する。
ここでは、障害を誘発する例なしに、障害モードを防御するためにそれを使用します。
具体的には、LATを用いてトロイの木馬を除去し、敵攻撃の抑止クラスを防御する。
画像分類, テキスト分類, テキスト生成タスクにおいて, LATは通常, 新規攻撃に対する堅牢性と, AT に対するクリーンデータの性能を向上することを示す。
これは、LATが開発者によって明確に特定されていない障害モードを防御するための有望なツールになり得ることを示唆している。
関連論文リスト
- Latent Adversarial Training Improves Robustness to Persistent Harmful Behaviors in LLMs [13.03032975937872]
大きな言語モデル(LLM)は、しばしば望ましくない方法で振る舞うように、明示的に微調整されないようにすることができる。
レッドチーム、モデル編集、解釈可能性に関する最近の研究は、この課題が(逆境的な)微調整が望ましくない能力を排除するのではなく、いかに抑制するかに起因していることを示唆している。
論文 参考訳(メタデータ) (2024-07-22T11:19:14Z) - Improving Alignment and Robustness with Circuit Breakers [40.4558948850276]
本稿では,「サーキットブレーカー」による有害な出力に応答するモデルを中断する手法を提案する。
トレーニングの拒絶と敵のトレーニングの代替として、サーキットブレーキングは有害なアウトプットの原因となる表現を直接制御する。
我々は、我々のアプローチをAIエージェントに拡張し、攻撃されているときの有害な行動の率を大幅に低下させることを実証する。
論文 参考訳(メタデータ) (2024-06-06T17:57:04Z) - Language Guided Adversarial Purification [3.9931474959554496]
生成モデルを用いた対向浄化は、強い対向防御性能を示す。
新しいフレームワーク、Language Guided Adversarial Purification (LGAP)は、事前訓練された拡散モデルとキャプションジェネレータを利用する。
論文 参考訳(メタデータ) (2023-09-19T06:17:18Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - Universal Adversarial Training with Class-Wise Perturbations [78.05383266222285]
敵の訓練は 敵の攻撃を防御するために 最も広く使われる方法です
この作業では、UAPがすべてのクラスを等しく攻撃しないことがわかります。
我々は,対人訓練におけるクラスワイドUAPの利用を提案することで,SOTA UATを改善した。
論文 参考訳(メタデータ) (2021-04-07T09:05:49Z) - Proper Network Interpretability Helps Adversarial Robustness in
Classification [91.39031895064223]
本稿では,解釈の適切な測定を行うことで,予測回避攻撃が解釈の不一致を引き起こすのを防ぐことは困難であることを示す。
我々は,頑健な解釈の促進にのみ焦点をあてて,解釈可能性に配慮した防御手法を開発した。
その結果,我々の防衛力は,強靭な分類と頑健な解釈の両方を達成し,大規模な摂動攻撃に対する最先端の対人訓練方法よりも優れていた。
論文 参考訳(メタデータ) (2020-06-26T01:31:31Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z) - Adversarial Feature Desensitization [12.401175943131268]
本稿では,ドメイン適応分野からの洞察を基盤とした,対向ロバスト性に対する新しいアプローチを提案する。
提案手法は,入力の逆方向の摂動に対して不変な特徴を学習することを目的として,AFD(Adversarial Feature Desensitization)と呼ばれる。
論文 参考訳(メタデータ) (2020-06-08T14:20:02Z) - Testing Robustness Against Unforeseen Adversaries [54.75108356391557]
対向ロバストネスの研究は主にL_p摂動に焦点を当てている。
現実世界のアプリケーションでは、開発者はシステムが直面するあらゆる攻撃や汚職にアクセスできる可能性は低い。
我々は、予期せぬ敵に対して、モデルロバスト性を評価するためのフレームワークであるImageNet-UAを紹介する。
論文 参考訳(メタデータ) (2019-08-21T17:36:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。