論文の概要: FLRT: Fluent Student-Teacher Redteaming
- arxiv url: http://arxiv.org/abs/2407.17447v2
- Date: Tue, 01 Oct 2024 17:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 16:33:44.134419
- Title: FLRT: Fluent Student-Teacher Redteaming
- Title(参考訳): FLRT:フレント・学生・教師のリチーム
- Authors: T. Ben Thompson, Michael Sklar,
- Abstract要約: 我々は既存のアルゴリズムを改良し、安全に配慮したモデルに対する強力で流動的な攻撃を開発する。
本手法は, 害虫モデルに毒素をエミュレートする新しい蒸留法を中心にした手法である。
Llama-2-7B, Llama-3-8B, Vicuna-7Bの攻撃成功率は93$%であり, モデルによるパープレキシティは33$である。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Many publicly available language models have been safety tuned to reduce the likelihood of toxic or liability-inducing text. To redteam or jailbreak these models for compliance with toxic requests, users and security analysts have developed adversarial prompting techniques. One attack method is to apply discrete optimization techniques to the prompt. However, the resulting attack strings are often gibberish text, easily filtered by defenders due to high measured perplexity, and may fail for unseen tasks and/or well-tuned models. In this work, we improve existing algorithms (primarily GCG and BEAST) to develop powerful and fluent attacks on safety-tuned models like Llama-2 and Phi-3. Our technique centers around a new distillation-based approach that encourages the victim model to emulate a toxified finetune, either in terms of output probabilities or internal activations. To encourage human-fluent attacks, we add a multi-model perplexity penalty and a repetition penalty to the objective. We also enhance optimizer strength by allowing token insertions, token swaps, and token deletions and by using longer attack sequences. The resulting process is able to reliably jailbreak the most difficult target models with prompts that appear similar to human-written prompts. On Advbench we achieve attack success rates $>93$% for Llama-2-7B, Llama-3-8B, and Vicuna-7B, while maintaining model-measured perplexity $<33$; we achieve $95$% attack success for Phi-3, though with higher perplexity. We also find a universally-optimized single fluent prompt that induces $>88$% compliance on previously unseen tasks across Llama-2-7B, Phi-3-mini and Vicuna-7B and transfers to other black-box models.
- Abstract(参考訳): 多くの公的な言語モデルは、有害または負債を誘発するテキストの可能性を減らすために安全調整されている。
有害な要求に対応するためにこれらのモデルを再設計またはジェイルブレイクするために、ユーザとセキュリティアナリストは敵のプロンプト技術を開発した。
1つの攻撃方法は、プロンプトに離散最適化技術を適用することである。
しかし、結果として生じる攻撃文字列は、しばしばジブベリのテキストであり、高い測定精度のためにディフェンダーによって簡単にフィルタリングされ、目に見えないタスクやよく調整されたモデルでは失敗する可能性がある。
本研究では,既存のアルゴリズム(主にGCGとBEAST)を改良し,Llama-2やPhi-3のような安全チューニングモデルに対する強力で流動的な攻撃を開発する。
本手法は, 発生確率, 内部活性化の両面において, 有害微粒のエミュレートを促進する新しい蒸留法を中心にしている。
人為的な攻撃を促すため、目的にマルチモデルパープレキシティペナルティと反復ペナルティを付加する。
また、トークン挿入、トークンスワップ、トークン削除を許可し、より長いアタックシーケンスを使用することで、オプティマイザ強度を向上させる。
結果として得られるプロセスは、人間書きのプロンプトと同じようなプロンプトで、最も難しいターゲットモデルを確実にジェイルブレイクすることができる。
Advbenchでは,Llama-2-7B,Llama-3-8B,Vicuna-7Bに対する攻撃成功率=93$%,モデルによるパープレキシティ=<33$,Phi-3に対する攻撃成功率は9,5$%である。
また、Llama-2-7B、Phi-3-mini、Vicuna-7Bにまたがる未確認タスクに対して、88$%のコンプライアンスを誘導し、他のブラックボックスモデルに転送する、普遍的に最適化されたシングルフロートプロンプトも見つける。
関連論文リスト
- Goal-guided Generative Prompt Injection Attack on Large Language Models [6.175969971471705]
大規模言語モデル(LLM)は、大規模ユーザ指向自然言語タスクの強力な基盤を提供する。
多数のユーザは、ユーザインターフェースを通じて、逆テキストや命令を容易に注入することができる。
これらの戦略が攻撃の成功率とどのように関係し、モデルセキュリティを効果的に改善するかは不明である。
論文 参考訳(メタデータ) (2024-04-06T06:17:10Z) - Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks [38.25697806663553]
近年のLLMでさえ、単純な適応型ジェイルブレイク攻撃に対して堅牢ではないことが示されている。
我々は,Vicuna-13B,Mistral-7B,Phi-3-Mini,Nemotron-4-340B,Llama-2-Chat-7B/13B/70B,Llama-3-Instruct-8B,Gemma- 7B,GPT-3.5,GPT-4,R2D2の攻撃成功率の約100%を達成する。
論文 参考訳(メタデータ) (2024-04-02T17:58:27Z) - Query-Based Adversarial Prompt Generation [67.238873588125]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Learning to Ignore Adversarial Attacks [14.24585085013907]
攻撃トークンの無視を明示的に学習する合理化モデルを導入する。
その結果,攻撃トークンの90%以上を合理的に無視できることがわかった。
論文 参考訳(メタデータ) (2022-05-23T18:01:30Z) - Multi-granularity Textual Adversarial Attack with Behavior Cloning [4.727534308759158]
我々は,被害者モデルに対するクエリが少なく,高品質な対数サンプルを生成するためのマルチグラムYアタックモデルMAYAを提案する。
2つの異なるブラックボックス攻撃設定と3つのベンチマークデータセットでBiLSTM,BERT,RoBERTaを攻撃し、攻撃モデルを評価するための総合的な実験を行った。
論文 参考訳(メタデータ) (2021-09-09T15:46:45Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Patch-wise++ Perturbation for Adversarial Targeted Attacks [132.58673733817838]
トランスファビリティの高い対比例の作成を目的としたパッチワイズ反復法(PIM)を提案する。
具体的には、各イテレーションのステップサイズに増幅係数を導入し、$epsilon$-constraintをオーバーフローする1ピクセルの全体的な勾配が、その周辺領域に適切に割り当てられる。
現在の攻撃方法と比較して、防御モデルでは35.9%、通常訓練されたモデルでは32.7%、成功率を大幅に向上させた。
論文 参考訳(メタデータ) (2020-12-31T08:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。