論文の概要: AutoDAN: Automatic and Interpretable Adversarial Attacks on Large
Language Models
- arxiv url: http://arxiv.org/abs/2310.15140v1
- Date: Mon, 23 Oct 2023 17:46:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 18:18:02.607571
- Title: AutoDAN: Automatic and Interpretable Adversarial Attacks on Large
Language Models
- Title(参考訳): autodan: 大きな言語モデルに対する自動および解釈可能な敵攻撃
- Authors: Sicheng Zhu, Ruiyi Zhang, Bang An, Gang Wu, Joe Barrow, Zichao Wang,
Furong Huang, Ani Nenkova, Tong Sun
- Abstract要約: 手動によるジェイルブレイク攻撃は、人間が読むことができるが、しばしば制限され、公開され、簡単にブロックできる。
敵攻撃は、難易度に基づくフィルタを用いて検出できるジベリッシュプロンプトを生成する。
本稿では,双方の攻撃の強みを組み合わせた,解釈可能な敵攻撃であるtextttAutoDANを提案する。
- 参考スコア(独自算出の注目度): 55.748851471119906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety alignment of Large Language Models (LLMs) can be compromised with
manual jailbreak attacks and (automatic) adversarial attacks. Recent work
suggests that patching LLMs against these attacks is possible: manual jailbreak
attacks are human-readable but often limited and public, making them easy to
block; adversarial attacks generate gibberish prompts that can be detected
using perplexity-based filters. In this paper, we show that these solutions may
be too optimistic. We propose an interpretable adversarial attack,
\texttt{AutoDAN}, that combines the strengths of both types of attacks. It
automatically generates attack prompts that bypass perplexity-based filters
while maintaining a high attack success rate like manual jailbreak attacks.
These prompts are interpretable and diverse, exhibiting strategies commonly
used in manual jailbreak attacks, and transfer better than their non-readable
counterparts when using limited training data or a single proxy model. We also
customize \texttt{AutoDAN}'s objective to leak system prompts, another
jailbreak application not addressed in the adversarial attack literature. %,
demonstrating the versatility of the approach. We can also customize the
objective of \texttt{AutoDAN} to leak system prompts, beyond the ability to
elicit harmful content from the model, demonstrating the versatility of the
approach. Our work provides a new way to red-team LLMs and to understand the
mechanism of jailbreak attacks.
- Abstract(参考訳): 大規模言語モデル(llm)の安全性アライメントは、手動のジェイルブレイク攻撃や(自動的な)逆襲によって危険にさらされる可能性がある。
最近の研究は、これらの攻撃に対するLSMのパッチが可能であることを示唆している。手動のジェイルブレイク攻撃は、人間可読であるが、しばしば制限され、公開されており、ブロックが容易である。
本稿では,これらの解は楽観的すぎる可能性があることを示す。
我々は,両タイプの攻撃の強みを組み合わせた解釈可能な敵攻撃である \texttt{autodan} を提案する。
手動ジェイルブレイク攻撃のような高い攻撃成功率を維持しながら、パープレキシティベースのフィルタをバイパスする攻撃プロンプトを自動的に生成する。
これらのプロンプトは解釈可能で多様であり、手動のjailbreak攻撃で一般的に使用される戦略を示し、限られたトレーニングデータや単一のプロキシモデルを使用する場合の非可読性よりも優れた転送方法を示す。
また,システムプロンプトをリークすることを目的とした \texttt{autodan} の目的をカスタマイズした。
%であり,多用途性を示した。
また、システムプロンプトを漏洩させるため、モデルから有害なコンテンツを抽出するだけでなく、アプローチの汎用性を示すために、‘texttt{AutoDAN}’の目的をカスタマイズすることもできる。
私たちの仕事は、LLMを再チーム化し、ジェイルブレイク攻撃のメカニズムを理解するための新しい方法を提供する。
関連論文リスト
- AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A
Vision Paper [16.078682415975337]
Jailbreakingは、既成の大規模言語モデル(LLM)に配置された安全アライメントをバイパスする、新たな敵攻撃である。
本稿では,SELFDEFENDと呼ばれる軽量で実用的な防御手法を提案する。
jailbreakプロンプトが最小限の遅延と、通常のユーザプロンプトが無視できる遅延で、既存のjailbreak攻撃を防げます。
論文 参考訳(メタデータ) (2024-02-24T05:34:43Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。