論文の概要: Fluent Student-Teacher Redteaming
- arxiv url: http://arxiv.org/abs/2407.17447v1
- Date: Wed, 24 Jul 2024 17:23:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 12:55:41.697142
- Title: Fluent Student-Teacher Redteaming
- Title(参考訳): フルエント・学生・教師のリチーム化
- Authors: T. Ben Thompson, Michael Sklar,
- Abstract要約: 我々は、Llama-2やPhi-3のような安全チューニングモデルに対する強力で流動的な攻撃を開発する。
本手法は, 害虫モデルに毒素をエミュレートする新しい蒸留法を中心にした手法である。
Llama-2-7B, Llama-3-8B, Vicuna-7Bの攻撃成功率は93$%であり, モデルによるパープレキシティは33$である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many publicly available language models have been safety tuned to reduce the likelihood of toxic or liability-inducing text. Users or security analysts attempt to jailbreak or redteam these models with adversarial prompts which cause compliance with requests. One attack method is to apply discrete optimization techniques to the prompt. However, the resulting attack strings are often gibberish text, easily filtered by defenders due to high measured perplexity, and may fail for unseen tasks and/or well-tuned models. In this work, we improve existing algorithms (primarily GCG and BEAST) to develop powerful and fluent attacks on safety-tuned models like Llama-2 and Phi-3. Our technique centers around a new distillation-based approach that encourages the victim model to emulate a toxified finetune, either in terms of output probabilities or internal activations. To encourage human-fluent attacks, we add a multi-model perplexity penalty and a repetition penalty to the objective. We also enhance optimizer strength by allowing token insertions, token swaps, and token deletions and by using longer attack sequences. The resulting process is able to reliably jailbreak the most difficult target models with prompts that appear similar to human-written prompts. On Advbench we achieve attack success rates $>93$% for Llama-2-7B, Llama-3-8B, and Vicuna-7B, while maintaining model-measured perplexity $<33$; we achieve $95$% attack success for Phi-3, though with higher perplexity. We also find a universally-optimized single fluent prompt that induces $>88$% compliance on previously unseen tasks across Llama-2-7B, Phi-3-mini and Vicuna-7B and transfers to other black-box models.
- Abstract(参考訳): 多くの公的な言語モデルは、有害または負債を誘発するテキストの可能性を減らすために安全調整されている。
ユーザやセキュリティアナリストは、これらのモデルをジェイルブレイクまたはリチームして、要求に準拠する敵のプロンプトを発生させようとする。
1つの攻撃方法は、プロンプトに離散最適化技術を適用することである。
しかし、結果として生じる攻撃文字列は、しばしばジブベリのテキストであり、高い測定精度のためにディフェンダーによって簡単にフィルタリングされ、目に見えないタスクやよく調整されたモデルでは失敗する可能性がある。
本研究では,既存のアルゴリズム(主にGCGとBEAST)を改良し,Llama-2やPhi-3のような安全チューニングモデルに対する強力で流動的な攻撃を開発する。
本手法は, 発生確率, 内部活性化の両面において, 有害微粒のエミュレートを促進する新しい蒸留法を中心にしている。
人為的な攻撃を促すため、目的にマルチモデルパープレキシティペナルティと反復ペナルティを付加する。
また、トークン挿入、トークンスワップ、トークン削除を許可し、より長いアタックシーケンスを使用することで、オプティマイザ強度を向上させる。
結果として得られるプロセスは、人間書きのプロンプトと同じようなプロンプトで、最も難しいターゲットモデルを確実にジェイルブレイクすることができる。
Advbenchでは,Llama-2-7B,Llama-3-8B,Vicuna-7Bに対する攻撃成功率=93$%,モデルによるパープレキシティ=<33$,Phi-3に対する攻撃成功率は9,5$%である。
また、Llama-2-7B、Phi-3-mini、Vicuna-7Bにまたがる未確認タスクに対して、88$%のコンプライアンスを誘導し、他のブラックボックスモデルに転送する、普遍的に最適化されたシングルフロートプロンプトも見つける。
関連論文リスト
- A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - Improved Generation of Adversarial Examples Against Safety-aligned LLMs [72.38072942860309]
勾配に基づく手法を用いて生成した敵対的プロンプトは、安全対応のLDMに対して自動ジェイルブレイク攻撃を行う際、優れた性能を示す。
本稿では,この問題に対する新たな視点を探求し,トランスファーベースの攻撃にインスパイアされたイノベーションを活用することで緩和できることを示唆する。
この組み合わせによって生成されたクエリ固有逆接接尾辞の87%がLlama-2-7B-Chatを誘導し、AdvBench上のターゲット文字列と正確に一致する出力を生成することを示した。
論文 参考訳(メタデータ) (2024-05-28T06:10:12Z) - Revisiting Character-level Adversarial Attacks for Language Models [53.446619686108754]
本稿では、高い攻撃成功率(ASR)を達成することができる効率的なクエリベースの敵攻撃であるCharmerを紹介する。
提案手法は,小型 (BERT) モデルと大型 (Llama 2) モデルの両方を対象としている。
論文 参考訳(メタデータ) (2024-05-07T14:23:22Z) - Goal-guided Generative Prompt Injection Attack on Large Language Models [6.175969971471705]
大規模言語モデル(LLM)は、大規模ユーザ指向自然言語タスクの強力な基盤を提供する。
多数のユーザは、ユーザインターフェースを通じて、逆テキストや命令を容易に注入することができる。
これらの戦略が攻撃の成功率とどのように関係し、モデルセキュリティを効果的に改善するかは不明である。
論文 参考訳(メタデータ) (2024-04-06T06:17:10Z) - Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks [38.25697806663553]
近年のLLMでさえ、単純な適応型ジェイルブレイク攻撃に対して堅牢ではないことが示されている。
我々は, Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B, Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4o, R2D2の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2024-04-02T17:58:27Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Learning to Ignore Adversarial Attacks [14.24585085013907]
攻撃トークンの無視を明示的に学習する合理化モデルを導入する。
その結果,攻撃トークンの90%以上を合理的に無視できることがわかった。
論文 参考訳(メタデータ) (2022-05-23T18:01:30Z) - Multi-granularity Textual Adversarial Attack with Behavior Cloning [4.727534308759158]
我々は,被害者モデルに対するクエリが少なく,高品質な対数サンプルを生成するためのマルチグラムYアタックモデルMAYAを提案する。
2つの異なるブラックボックス攻撃設定と3つのベンチマークデータセットでBiLSTM,BERT,RoBERTaを攻撃し、攻撃モデルを評価するための総合的な実験を行った。
論文 参考訳(メタデータ) (2021-09-09T15:46:45Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。