論文の概要: Adversarial Training for High-Stakes Reliability
- arxiv url: http://arxiv.org/abs/2205.01663v1
- Date: Tue, 3 May 2022 17:50:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 13:02:12.771093
- Title: Adversarial Training for High-Stakes Reliability
- Title(参考訳): 高信頼のための対人訓練
- Authors: Daniel M. Ziegler, Seraphina Nix, Lawrence Chan, Tim Bauman, Peter
Schmidt-Nielsen, Tao Lin, Adam Scherlis, Noa Nabeshima, Ben Weinstein-Raun,
Daniel de Haas, Buck Shlegeris, Nate Thomas
- Abstract要約: 将来的には、単一の障害が大惨事になるような、強力なAIシステムが、ハイテイクな設定で展開される可能性がある。
本研究では,言語生成タスクをテストベッドとして使用し,対人訓練による高い信頼性を実現する。
その結果, 対人訓練は, 対人攻撃に対するロバスト性を有意に高め, 分配性能に影響を与えないことが判明した。
- 参考スコア(独自算出の注目度): 5.82035891472178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the future, powerful AI systems may be deployed in high-stakes settings,
where a single failure could be catastrophic. One technique for improving AI
safety in high-stakes settings is adversarial training, which uses an adversary
to generate examples to train on in order to achieve better worst-case
performance.
In this work, we used a language generation task as a testbed for achieving
high reliability through adversarial training. We created a series of
adversarial training techniques -- including a tool that assists human
adversaries -- to find and eliminate failures in a classifier that filters text
completions suggested by a generator. In our simple "avoid injuries" task, we
determined that we can set very conservative classifier thresholds without
significantly impacting the quality of the filtered outputs. With our chosen
thresholds, filtering with our baseline classifier decreases the rate of unsafe
completions from about 2.4% to 0.003% on in-distribution data, which is near
the limit of our ability to measure. We found that adversarial training
significantly increased robustness to the adversarial attacks that we trained
on, without affecting in-distribution performance. We hope to see further work
in the high-stakes reliability setting, including more powerful tools for
enhancing human adversaries and better ways to measure high levels of
reliability, until we can confidently rule out the possibility of catastrophic
deployment-time failures of powerful models.
- Abstract(参考訳): 将来的には、単一の障害が大惨事になるような、強力なAIシステムが、ハイテイクな設定で展開される可能性がある。
ハイステイク設定でai安全性を改善するテクニックのひとつが、逆トレーニングである。これは、逆者を使って、最悪の場合のパフォーマンスを改善するためにトレーニングするサンプルを生成する。
本研究では,言語生成タスクをテストベッドとして使用し,対人訓練による高い信頼性を実現する。
私たちは、ジェネレータが提案するテキスト補完をフィルタリングする分類器の障害を見つけて排除するために、人間の敵を支援するツールを含む、一連の敵のトレーニングテクニックを作成しました。
簡単な「アビドケイン」タスクでは,フィルタ出力の品質に大きな影響を及ぼすことなく,極めて保守的な分類器閾値を設定することができると判断した。
私たちの選択したしきい値では、ベースライン分類器によるフィルタリングは、分散データにおける安全でない完了率を約2.4%から0.003%まで低下させます。
その結果, 対人訓練は, 対人攻撃に対するロバスト性を有意に高め, 分配性能に影響を与えないことがわかった。
強力なモデルの壊滅的なデプロイメントタイムの失敗の可能性を排除することができるまで、人間の敵性を高めるためのより強力なツールや高いレベルの信頼性を測定するより良い方法など、高い信頼性設定でさらなる作業が期待できる。
関連論文リスト
- Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - FaultGuard: A Generative Approach to Resilient Fault Prediction in Smart Electrical Grids [53.2306792009435]
FaultGuardは、障害タイプとゾーン分類のための最初のフレームワークであり、敵攻撃に耐性がある。
本稿では,ロバスト性を高めるために,低複雑性故障予測モデルとオンライン逆行訓練手法を提案する。
本モデルでは,耐故障予測ベンチマークの最先端を最大0.958の精度で上回っている。
論文 参考訳(メタデータ) (2024-03-26T08:51:23Z) - Improved Adversarial Training Through Adaptive Instance-wise Loss
Smoothing [5.1024659285813785]
敵の訓練は、このような敵の攻撃に対する最も成功した防御であった。
本稿では,新たな対人訓練手法を提案する。
本手法は,$ell_infty$-norm制約攻撃に対する最先端のロバスト性を実現する。
論文 参考訳(メタデータ) (2023-03-24T15:41:40Z) - FLIP: A Provable Defense Framework for Backdoor Mitigation in Federated
Learning [66.56240101249803]
我々は,クライアントの強固化がグローバルモデル(および悪意のあるクライアント)に与える影響について検討する。
本稿では, 逆エンジニアリングによる防御手法を提案するとともに, 堅牢性を保証して, 改良を実現できることを示す。
競合する8つのSOTA防御法について, 単発および連続のFLバックドア攻撃に対して, 提案手法の実証的優位性を示した。
論文 参考訳(メタデータ) (2022-10-23T22:24:03Z) - Detection and Mitigation of Byzantine Attacks in Distributed Training [24.951227624475443]
ワーカノードの異常なビザンチン挙動は、トレーニングを脱線させ、推論の品質を損なう可能性がある。
最近の研究は、幅広い攻撃モデルを検討し、歪んだ勾配を補正するために頑健な集約と/または計算冗長性を探究している。
本研究では、強力な攻撃モデルについて検討する:$q$ omniscient adversaries with full knowledge of the defense protocol that can change from iteration to iteration to weak one: $q$ randomly selected adversaries with limited collusion abilities。
論文 参考訳(メタデータ) (2022-08-17T05:49:52Z) - Enhancing Adversarial Training with Feature Separability [52.39305978984573]
本稿では,特徴分離性を備えた対人訓練(ATFS)により,クラス内特徴の類似性を向上し,クラス間特徴分散を増大させることができる,新たな対人訓練グラフ(ATG)を提案する。
包括的な実験を通じて、提案したATFSフレームワークがクリーンかつロバストなパフォーマンスを著しく改善することを示した。
論文 参考訳(メタデータ) (2022-05-02T04:04:23Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z) - Adversarial Robustness: From Self-Supervised Pre-Training to Fine-Tuning [134.15174177472807]
対戦型トレーニングを自己超越に導入し,汎用的な頑健な事前訓練モデルを初めて提供する。
提案するフレームワークが大きなパフォーマンスマージンを達成できることを示すため,広範な実験を行う。
論文 参考訳(メタデータ) (2020-03-28T18:28:33Z) - Improving the affordability of robustness training for DNNs [11.971637253035107]
逆行訓練の初期段階は冗長であり、計算効率を大幅に向上させる自然な訓練に置き換えることができることを示す。
提案手法は, 各種敵攻撃の強みに対するモデルテスト精度と一般化により, 最大2.5倍の訓練時間を短縮できることを示す。
論文 参考訳(メタデータ) (2020-02-11T07:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。