論文の概要: AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models
- arxiv url: http://arxiv.org/abs/2310.15140v2
- Date: Thu, 14 Dec 2023 06:22:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 03:55:21.558855
- Title: AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models
- Title(参考訳): autodan: 大きな言語モデルに対する解釈可能な勾配に基づく逆攻撃
- Authors: Sicheng Zhu, Ruiyi Zhang, Bang An, Gang Wu, Joe Barrow, Zichao Wang,
Furong Huang, Ani Nenkova, Tong Sun
- Abstract要約: LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
- 参考スコア(独自算出の注目度): 55.748851471119906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety alignment of Large Language Models (LLMs) can be compromised with
manual jailbreak attacks and (automatic) adversarial attacks. Recent studies
suggest that defending against these attacks is possible: adversarial attacks
generate unlimited but unreadable gibberish prompts, detectable by
perplexity-based filters; manual jailbreak attacks craft readable prompts, but
their limited number due to the necessity of human creativity allows for easy
blocking. In this paper, we show that these solutions may be too optimistic. We
introduce AutoDAN, an interpretable, gradient-based adversarial attack that
merges the strengths of both attack types. Guided by the dual goals of
jailbreak and readability, AutoDAN optimizes and generates tokens one by one
from left to right, resulting in readable prompts that bypass perplexity
filters while maintaining high attack success rates. Notably, these prompts,
generated from scratch using gradients, are interpretable and diverse, with
emerging strategies commonly seen in manual jailbreak attacks. They also
generalize to unforeseen harmful behaviors and transfer to black-box LLMs
better than their unreadable counterparts when using limited training data or a
single proxy model. Furthermore, we show the versatility of AutoDAN by
automatically leaking system prompts using a customized objective. Our work
offers a new way to red-team LLMs and understand jailbreak mechanisms via
interpretability.
- Abstract(参考訳): 大規模言語モデル(llm)の安全性アライメントは、手動のジェイルブレイク攻撃や(自動的な)逆襲によって危険にさらされる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している: 敵対的な攻撃は無制限だが読解不能なプロンプトを生成し、パープレキシティベースのフィルターによって検出できる;手動のジェイルブレイク攻撃は可読性プロンプトを製作するが、人間の創造性の必要性によるそれらの数は限られている。
本稿では,これらの解は楽観的すぎる可能性があることを示す。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
ジェイルブレイクと可読性の2つの目標によってガイドされ、AutoDANはトークンを1つずつ左から右に最適化して生成する。
特に、勾配を使ってスクラッチから生成されたこれらのプロンプトは解釈可能で多様であり、手動のジェイルブレイク攻撃でよく見られる新しい戦略である。
彼らはまた、限られたトレーニングデータや単一のプロキシモデルを使用する場合、予期せぬ有害な振る舞いを一般化し、ブラックボックスのLSMに転送する。
さらに,システムプロンプトを自動リークすることで,AutoDANの汎用性を示す。
我々の研究は、red-team llmに新しい方法を提供し、解釈可能性を通じてジェイルブレイクのメカニズムを理解する。
関連論文リスト
- RedAgent: Red Teaming Large Language Models with Context-aware Autonomous Language Agent [24.487441771427434]
我々は,コンテキスト認識型ジェイルブレイクプロンプトを生成するためのマルチエージェントLLMシステムRedAgentを提案する。
我々のシステムは、ほとんどのブラックボックスLSMをたった5つのクエリでジェイルブレイクすることができ、既存のレッドチーム方式の効率を2倍に向上させることができる。
すべての問題を報告し、バグ修正のためにOpenAIとMetaと通信しました。
論文 参考訳(メタデータ) (2024-07-23T17:34:36Z) - Enhancing Jailbreak Attack Against Large Language Models through Silent Tokens [22.24239212756129]
既存のジェイルブレイク攻撃では、人間の専門家か、複雑なアルゴリズムを使ってプロンプトを作らなければならない。
eosトークンのみを活用する単純な攻撃であるBOOSTを導入する。
LLMがジェイルブレイク攻撃に対して脆弱であることが判明し、強力な安全アライメントアプローチの開発が動機となった。
論文 参考訳(メタデータ) (2024-05-31T07:41:03Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。