論文の概要: Universal Adversarial Triggers Are Not Universal
- arxiv url: http://arxiv.org/abs/2404.16020v1
- Date: Wed, 24 Apr 2024 17:53:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 18:31:49.086529
- Title: Universal Adversarial Triggers Are Not Universal
- Title(参考訳): Universal Adversarial TriggersはUniversalではない
- Authors: Nicholas Meade, Arkil Patel, Siva Reddy,
- Abstract要約: あるモデルに最適化されたトリガーは、他のモデルをジェイルブレイクすることができる。
AFTモデルは表面に安全に見える可能性があり、様々な安全でない命令を拒絶する。
AFTモデルに最適化されたほとんどのトリガーは、5つの異なる領域からの新しい安全でない命令にも一般化される。
- 参考スコア(独自算出の注目度): 28.97206621629125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has developed optimization procedures to find token sequences, called adversarial triggers, which can elicit unsafe responses from aligned language models. These triggers are believed to be universally transferable, i.e., a trigger optimized on one model can jailbreak other models. In this paper, we concretely show that such adversarial triggers are not universal. We extensively investigate trigger transfer amongst 13 open models and observe inconsistent transfer. Our experiments further reveal a significant difference in robustness to adversarial triggers between models Aligned by Preference Optimization (APO) and models Aligned by Fine-Tuning (AFT). We find that APO models are extremely hard to jailbreak even when the trigger is optimized directly on the model. On the other hand, while AFT models may appear safe on the surface, exhibiting refusals to a range of unsafe instructions, we show that they are highly susceptible to adversarial triggers. Lastly, we observe that most triggers optimized on AFT models also generalize to new unsafe instructions from five diverse domains, further emphasizing their vulnerability. Overall, our work highlights the need for more comprehensive safety evaluations for aligned language models.
- Abstract(参考訳): 最近の研究は、アライメントされた言語モデルから安全でない応答を引き出すことができる逆引き金と呼ばれるトークンシーケンスを見つけるための最適化手順を開発した。
これらのトリガーは普遍的に転送可能であると考えられており、例えば、あるモデルに最適化されたトリガーは、他のモデルをジェイルブレイクすることができる。
本稿では,このような敵対的引き金が普遍的でないことを具体的に示す。
我々は13個のオープンモデル間のトリガ転送を広範囲に調査し、一貫性のない転送を観察する。
提案実験により,予測最適化モデル (APO) とファインチューニングモデル (AFT) の相反的トリガに対するロバスト性に有意な差が認められた。
APOモデルは、トリガがモデルに直接最適化されている場合でも、ジェイルブレイクが非常に難しいことが分かりました。
一方, AFT モデルでは, 各種の安全でない命令に対する拒絶反応を呈するが, 敵の引き金に非常に敏感であることを示す。
最後に、ATTモデルに最適化されたほとんどのトリガは、5つの異なるドメインからの新しい安全でない命令に一般化され、その脆弱性をさらに強調する。
全体として、我々の研究は、アライメント言語モデルのより包括的な安全性評価の必要性を強調しています。
関連論文リスト
- A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - TERD: A Unified Framework for Safeguarding Diffusion Models Against Backdoors [36.07978634674072]
拡散モデルは、その完全性を損なうバックドア攻撃に弱い。
本稿では,現在の攻撃に対する統一モデリングを構築するバックドアディフェンスフレームワークであるTERDを提案する。
TERDは、さまざまな解像度のデータセットにまたがる100%のTrue Positive Rate(TPR)とTrue Negative Rate(TNR)を保証します。
論文 参考訳(メタデータ) (2024-09-09T03:02:16Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Watch Out for Your Guidance on Generation! Exploring Conditional Backdoor Attacks against Large Language Models [8.348993615202138]
大規模な言語モデル(LLM)に対するバックドア攻撃は、通常、入力インスタンスに固定されたトリガと、トリガクエリに対する特定のレスポンスを設定する。
生成条件の特定によって誘導されるLSMに対する新しい中毒パラダイムを提案する。
中毒モデルは通常、正常/他の生成条件下では出力に対して、目標生成条件下では出力に対して有害となる。
論文 参考訳(メタデータ) (2024-04-23T07:19:20Z) - Query-Based Adversarial Prompt Generation [67.238873588125]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - FTA: Stealthy and Adaptive Backdoor Attack with Flexible Triggers on
Federated Learning [11.636353298724574]
我々は,新たなステルスで堅牢なバックドア攻撃を,連邦学習(FL)防衛に対して提案する。
我々は、許容できない柔軟なトリガーパターンで良質なサンプルを操作することを学べる生成的トリガー関数を構築した。
我々のトリガージェネレータは学習を継続し、異なるラウンドにまたがって適応し、グローバルモデルの変化に適応できるようにします。
論文 参考訳(メタデータ) (2023-08-31T20:25:54Z) - Exploring the Universal Vulnerability of Prompt-based Learning Paradigm [21.113683206722207]
素早い学習は、事前学習と微調整のギャップを埋め、数ショット設定で効果的に機能することを発見した。
しかし、この学習パラダイムは、特定のトリガをテキストに挿入することで、モデル予測が誤解されるような事前学習段階から脆弱性を継承することがわかった。
バックドアトリガを注入するか,あるいはプレーンテキストのみを用いて事前学習した言語モデル上での逆トリガを検索することにより,この普遍的な脆弱性を探究する。
論文 参考訳(メタデータ) (2022-04-11T16:34:10Z) - MINIMAL: Mining Models for Data Free Universal Adversarial Triggers [57.14359126600029]
我々は、NLPモデルから入力非依存の逆のトリガーをマイニングするための、新しいデータフリーアプローチ、MINIMALを提案する。
我々はスタンフォード・センティメント・ツリーバンクの正のクラスを93.6%から9.6%に減らした。
SNLI(Stanford Natural Language Inference)では、このシングルワードトリガーによって、エンターメントクラスの精度が90.95%から0.6%未満に低下する。
論文 参考訳(メタデータ) (2021-09-25T17:24:48Z) - "What's in the box?!": Deflecting Adversarial Attacks by Randomly
Deploying Adversarially-Disjoint Models [71.91835408379602]
敵の例は長い間、機械学習モデルに対する真の脅威と考えられてきた。
我々は、従来のホワイトボックスやブラックボックスの脅威モデルを超えた、配置ベースの防衛パラダイムを提案する。
論文 参考訳(メタデータ) (2021-02-09T20:07:13Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。