論文の概要: Revisiting the Robust Alignment of Circuit Breakers
- arxiv url: http://arxiv.org/abs/2407.15902v2
- Date: Fri, 2 Aug 2024 12:02:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 15:50:45.702260
- Title: Revisiting the Robust Alignment of Circuit Breakers
- Title(参考訳): サーキットブレーカのロバストアライメントの再検討
- Authors: Leo Schwinn, Simon Geisler,
- Abstract要約: サーキットブレーカーによるアライメントとロバスト性の向上」というロバスト性は過大評価される可能性がある。
具体的には、スペースアタックの埋め込みにいくつかの簡単な変更を加えることで、サーキットブレーカモデルに対する100%のアタック成功率(ASR)を達成することを実証する。
- 参考スコア(独自算出の注目度): 10.852294343899487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Over the past decade, adversarial training has emerged as one of the few reliable methods for enhancing model robustness against adversarial attacks [Szegedy et al., 2014, Madry et al., 2018, Xhonneux et al., 2024], while many alternative approaches have failed to withstand rigorous subsequent evaluations. Recently, an alternative defense mechanism, namely "circuit breakers" [Zou et al., 2024], has shown promising results for aligning LLMs. In this report, we show that the robustness claims of "Improving Alignment and Robustness with Circuit Breakers" against unconstraint continuous attacks in the embedding space of the input tokens may be overestimated [Zou et al., 2024]. Specifically, we demonstrate that by implementing a few simple changes to embedding space attacks [Schwinn et al., 2024a,b], we achieve 100% attack success rate (ASR) against circuit breaker models. Without conducting any further hyperparameter tuning, these adjustments increase the ASR by more than 80% compared to the original evaluation. Code is accessible at: https://github.com/SchwinnL/circuit-breakers-eval
- Abstract(参考訳): 過去10年間で、敵の攻撃に対するモデル堅牢性を高める数少ない信頼性の高い方法(Szegedy et al , 2014 Madry et al , 2018, Xhonneux et al , 2024)の1つとして、敵の訓練が登場した。
近年,LLMの整合性を示す新たな防御機構として,回路ブレーカー(Zou et al , 2024)が提案されている。
本報告では,入力トークンの埋め込み空間における非拘束的連続攻撃に対する「回路ブレーカーによるアライメントとロバスト性の向上」のロバスト性は過大評価される可能性があることを示す(Zou et al , 2024]。
具体的には、スペースアタック(Schwinn et al , 2024a, b]にいくつかの簡単な変更を加えることで、サーキットブレーカモデルに対する100%アタック成功率(ASR)を達成できることを実証する。
それ以上のハイパーパラメータチューニングを行なわなければ、これらの調整は元の評価と比べてASRを80%以上増加させる。
https://github.com/SchwinnL/circuit-breakers-eval
関連論文リスト
- Regularized Robustly Reliable Learners and Instance Targeted Attacks [11.435833538081557]
Balcan et al (2022) は、堅牢で信頼性の高い学習者の概念を定義することによって、この問題に対処するアプローチを提案した。
少なくともある興味深いケースでは、トレーニング時間内にサブリニアで出力を生成できるアルゴリズムを設計できることが示されています。
論文 参考訳(メタデータ) (2024-10-14T14:49:32Z) - MOAT: Securely Mitigating Rowhammer with Per-Row Activation Counters [0.3580891736370874]
DDR5仕様は、各行にインライン化されたカウンタを持つper-Row Activation Counting (PRAC) と、DRAMが緩和するのにより多くの時間を必要とする場合、メモリコントローラを止めるALERT-Back-Off (ABO) をサポートするように拡張されている。
PRAC+ABOはRowhammer保護の強力な進歩を示しているが、それらは単なるフレームワークであり、実際のセキュリティは実装に依存している。
ETH(Eligibility Threshold)とALERT Threshold(ALERT Threshold)の2つの内部しきい値を用いて、確実に安全な設計であるMOATを提案する。
論文 参考訳(メタデータ) (2024-07-13T20:28:02Z) - Towards Robust Domain Generation Algorithm Classification [1.4542411354617986]
我々は32個のホワイトボックス攻撃を実装し、そのうち19個は非常に効果的であり、未硬化の分類器に対して$approx$100%の偽陰性率(FNR)を誘導する。
本稿では, 対角線空間ベクトルと離散化された対角線領域を利用して, 強靭性を大幅に向上させる新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-04-09T11:56:29Z) - FLIP: A Provable Defense Framework for Backdoor Mitigation in Federated
Learning [66.56240101249803]
我々は,クライアントの強固化がグローバルモデル(および悪意のあるクライアント)に与える影響について検討する。
本稿では, 逆エンジニアリングによる防御手法を提案するとともに, 堅牢性を保証して, 改良を実現できることを示す。
競合する8つのSOTA防御法について, 単発および連続のFLバックドア攻撃に対して, 提案手法の実証的優位性を示した。
論文 参考訳(メタデータ) (2022-10-23T22:24:03Z) - Sparse and Imperceptible Adversarial Attack via a Homotopy Algorithm [93.80082636284922]
少数の敵対的攻撃は、数ピクセルを摂動するだけでディープ・ネットワーク(DNN)を騙すことができる。
近年の取り組みは、他の等級のl_infty摂動と組み合わせている。
本稿では,空間的・神経的摂動に対処するホモトピーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-10T20:11:36Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - Adversarial Robustness by Design through Analog Computing and Synthetic
Gradients [80.60080084042666]
光コプロセッサにインスパイアされた敵攻撃に対する新しい防御機構を提案する。
ホワイトボックス設定では、我々の防御はランダム投影のパラメータを難読化することで機能する。
光学系におけるランダムプロジェクションとバイナライゼーションの組み合わせにより、様々な種類のブラックボックス攻撃に対するロバスト性も向上する。
論文 参考訳(メタデータ) (2021-01-06T16:15:29Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z) - Reliable evaluation of adversarial robustness with an ensemble of
diverse parameter-free attacks [65.20660287833537]
本稿では,最適段差の大きさと目的関数の問題による障害を克服するPGD攻撃の2つの拡張を提案する。
そして、我々の新しい攻撃と2つの補完的な既存の攻撃を組み合わせることで、パラメータフリーで、計算に手頃な価格で、ユーザに依存しない攻撃のアンサンブルを形成し、敵の堅牢性をテストする。
論文 参考訳(メタデータ) (2020-03-03T18:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。