Fugu-MT 論文翻訳(概要): Defending Against Unforeseen Failure Modes with Latent Adversarial Training

論文の概要: Defending Against Unforeseen Failure Modes with Latent Adversarial Training

arxiv url: http://arxiv.org/abs/2403.05030v3
Date: Mon, 1 Apr 2024 21:32:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-04 08:19:18.767210
Title: Defending Against Unforeseen Failure Modes with Latent Adversarial Training
Title（参考訳）: 遅発性逆行訓練による予期せぬ障害モードの予防
Authors: Stephen Casper, Lennart Schulze, Oam Patel, Dylan Hadfield-Menell,
Abstract要約: 赤いチームと敵の訓練(AT)は、強靭性を改善するために一般的に使用される。本研究では,LAT(Latent Adversarial Training)を用いて,脆弱性を誘発する入力を発生させることなく脆弱性を防御する。
参考スコア（独自算出の注目度）: 7.141982906162117
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite extensive diagnostics and debugging by developers, AI systems sometimes exhibit harmful unintended behaviors. Finding and fixing these is challenging because the attack surface is so large -- it is not tractable to exhaustively search for inputs that may elicit harmful behaviors. Red-teaming and adversarial training (AT) are commonly used to improve robustness, however, they empirically struggle to fix failure modes that differ from the attacks used during training. In this work, we utilize latent adversarial training (LAT) to defend against vulnerabilities without generating inputs that elicit them. LAT leverages the compressed, abstract, and structured latent representations of concepts that the network actually uses for prediction. We use it to remove trojans and defend against held-out classes of adversarial attacks. We show in image classification, text classification, and text generation tasks that LAT usually improves both robustness to novel attacks and performance on clean data relative to AT. This suggests that LAT can be a promising tool for defending against failure modes that are not explicitly identified by developers.
Abstract（参考訳）: 開発者による広範な診断とデバッグにもかかわらず、AIシステムは時に有害な意図しない振る舞いを示す。攻撃面があまりに大きく、有害な行動を引き起こす可能性のある入力を徹底的に探すことは困難である。赤いチームと敵の訓練(AT)は、強靭性を改善するために一般的に使用されるが、訓練中に使用される攻撃とは異なる障害モードの修正に経験的に苦労している。本研究では,LAT(Latent Adversarial Training)を用いて,脆弱性を誘発する入力を発生させることなく脆弱性を防御する。 LATは、ネットワークが実際に予測に使用している概念の圧縮、抽象、構造化された潜在表現を利用する。我々は、トロイの木馬を排除し、敵の攻撃を抑えるためにそれを使う。画像分類, テキスト分類, テキスト生成タスクにおいて, LATは通常, 新規攻撃に対する堅牢性と, AT に対するクリーンデータの性能を向上することを示す。これは、LATが開発者によって明確に特定されていない障害モードを防御するための有望なツールになり得ることを示唆している。

関連論文リスト

Improving Large Language Model Safety with Contrastive Representation Learning [92.79965952162298]
大規模言語モデル(LLM)は、社会に深い影響を与える強力なツールである。多様な制御されていない入力に対する応答を生成する能力は、敵の攻撃に対して脆弱である。対照的な表現学習問題としてモデルディフェンスを定式化するディフェンスフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-13T16:42:09Z)
Latent Adversarial Training Improves Robustness to Persistent Harmful Behaviors in LLMs [13.03032975937872]
大きな言語モデル(LLM)は、しばしば望ましくない方法で振る舞うように、明示的に微調整されないようにすることができる。レッドチーム、モデル編集、解釈可能性に関する最近の研究は、この課題が(逆境的な)微調整が望ましくない能力を排除するのではなく、いかに抑制するかに起因していることを示唆している。
論文参考訳（メタデータ） (2024-07-22T11:19:14Z)
Improving Alignment and Robustness with Circuit Breakers [40.4558948850276]
本稿では,「サーキットブレーカー」による有害な出力に応答するモデルを中断する手法を提案する。トレーニングの拒絶と敵のトレーニングの代替として、サーキットブレーキングは有害なアウトプットの原因となる表現を直接制御する。我々は、我々のアプローチをAIエージェントに拡張し、攻撃されているときの有害な行動の率を大幅に低下させることを実証する。
論文参考訳（メタデータ） (2024-06-06T17:57:04Z)
Language Guided Adversarial Purification [3.9931474959554496]
生成モデルを用いた対向浄化は、強い対向防御性能を示す。新しいフレームワーク、Language Guided Adversarial Purification (LGAP)は、事前訓練された拡散モデルとキャプションジェネレータを利用する。
論文参考訳（メタデータ） (2023-09-19T06:17:18Z)
Adversary Aware Continual Learning [3.3439097577935213]
Adversaryは、テスト時に特定のタスクやクラスを意図的に忘れるように、少量の誤報をモデルに導入することができる。我々は,攻撃者のバックドアパターンを人間には認識不能にすることで,攻撃者の主要な強みを隠蔽し,攻撃者の知覚不能パターンを超過する知覚的(強者)パターンを学習することを提案する。提案手法は,攻撃者の目標タスク,攻撃者の目標クラス,攻撃者の許容できないパターンを知らずに,クラスインクリメンタル学習アルゴリズムの性能を著しく向上させることを示す。
論文参考訳（メタデータ） (2023-04-27T19:49:50Z)
RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。 RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文参考訳（メタデータ） (2022-07-12T19:34:47Z)
Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文参考訳（メタデータ） (2021-06-17T14:23:54Z)
Universal Adversarial Training with Class-Wise Perturbations [78.05383266222285]
敵の訓練は敵の攻撃を防御するために最も広く使われる方法ですこの作業では、UAPがすべてのクラスを等しく攻撃しないことがわかります。我々は,対人訓練におけるクラスワイドUAPの利用を提案することで,SOTA UATを改善した。
論文参考訳（メタデータ） (2021-04-07T09:05:49Z)
Proper Network Interpretability Helps Adversarial Robustness in Classification [91.39031895064223]
本稿では,解釈の適切な測定を行うことで,予測回避攻撃が解釈の不一致を引き起こすのを防ぐことは困難であることを示す。我々は,頑健な解釈の促進にのみ焦点をあてて,解釈可能性に配慮した防御手法を開発した。その結果,我々の防衛力は,強靭な分類と頑健な解釈の両方を達成し,大規模な摂動攻撃に対する最先端の対人訓練方法よりも優れていた。
論文参考訳（メタデータ） (2020-06-26T01:31:31Z)
A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。本稿では,入力空間における自己教師型対向学習機構を提案する。これは、反逆攻撃に対する強力な堅牢性を提供する。
論文参考訳（メタデータ） (2020-06-08T20:42:39Z)
Adversarial Feature Desensitization [12.401175943131268]
本稿では,ドメイン適応分野からの洞察を基盤とした,対向ロバスト性に対する新しいアプローチを提案する。提案手法は,入力の逆方向の摂動に対して不変な特徴を学習することを目的として,AFD(Adversarial Feature Desensitization)と呼ばれる。
論文参考訳（メタデータ） (2020-06-08T14:20:02Z)
Testing Robustness Against Unforeseen Adversaries [54.75108356391557]
対向ロバストネスの研究は主にL_p摂動に焦点を当てている。現実世界のアプリケーションでは、開発者はシステムが直面するあらゆる攻撃や汚職にアクセスできる可能性は低い。我々は、予期せぬ敵に対して、モデルロバスト性を評価するためのフレームワークであるImageNet-UAを紹介する。
論文参考訳（メタデータ） (2019-08-21T17:36:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。