Fugu-MT 論文翻訳(概要): AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models

論文の概要: AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models

arxiv url: http://arxiv.org/abs/2310.04451v2
Date: Wed, 20 Mar 2024 21:34:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 19:56:45.758082
Title: AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models
Title（参考訳）: AutoDAN: 調整済み大規模言語モデル上での定常的ジェイルブレイクプロンプトの生成
Authors: Xiaogeng Liu, Nan Xu, Muhao Chen, Chaowei Xiao,
Abstract要約: 本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。 AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
参考スコア（独自算出の注目度）: 54.95912006700379
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The aligned Large Language Models (LLMs) are powerful language understanding and decision-making tools that are created through extensive alignment with human feedback. However, these large models remain susceptible to jailbreak attacks, where adversaries manipulate prompts to elicit malicious outputs that should not be given by aligned LLMs. Investigating jailbreak prompts can lead us to delve into the limitations of LLMs and further guide us to secure them. Unfortunately, existing jailbreak techniques suffer from either (1) scalability issues, where attacks heavily rely on manual crafting of prompts, or (2) stealthiness problems, as attacks depend on token-based algorithms to generate prompts that are often semantically meaningless, making them susceptible to detection through basic perplexity testing. In light of these challenges, we intend to answer this question: Can we develop an approach that can automatically generate stealthy jailbreak prompts? In this paper, we introduce AutoDAN, a novel jailbreak attack against aligned LLMs. AutoDAN can automatically generate stealthy jailbreak prompts by the carefully designed hierarchical genetic algorithm. Extensive evaluations demonstrate that AutoDAN not only automates the process while preserving semantic meaningfulness, but also demonstrates superior attack strength in cross-model transferability, and cross-sample universality compared with the baseline. Moreover, we also compare AutoDAN with perplexity-based defense methods and show that AutoDAN can bypass them effectively.
Abstract（参考訳）: LLM(Large Language Models)は、人間のフィードバックと広範囲に一致して作成される、強力な言語理解と意思決定ツールである。しかし、これらの大きなモデルはジェイルブレイク攻撃の影響を受けやすいままであり、敵は、一致したLSMが与えるべきでない悪意のあるアウトプットを誘導するプロンプトを操作する。ジェイルブレイクのプロンプトを調査すれば、LSMの限界を掘り下げて、それらを保護するためのガイドになります。残念ながら、既存のjailbreakテクニックは、(1)手動によるプロンプト作成に大きく依存するスケーラビリティの問題、または(2)トークンベースのアルゴリズムに依存して、意味的に意味のないプロンプトを生成するため、基本的なパープレキシティテストによって検出される可能性があるため、ステルスネスの問題のいずれかに悩まされている。これらの課題を踏まえて、私たちはこの質問に答えるつもりです。ステルスなジェイルブレイクプロンプトを自動生成できるアプローチを開発できますか? 本稿では,ALMに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。 AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。広範囲な評価の結果,AutoDANは意味的意味性を維持しながらプロセスを自動化するだけでなく,モデル間の伝達性やベースラインと比較した場合のクロスサンプル普遍性にも優れた攻撃強度を示す。さらに,AutoDANとパープレキシティベースの防御手法を比較し,AutoDANがそれらを効果的に回避できることを示す。

関連論文リスト

LatentBreak: Jailbreaking Large Language Models through Latent Space Feedback [31.15245650762331]
そこで我々は,ホワイトボックスのジェイルブレイク攻撃であるLatentBreakを提案する。 LatentBreakは入力プロンプト内の単語を意味的に等価なものに置き換え、プロンプトの初期意図を保存する。我々の評価では、LatentBreakは短絡性のプロンプトを誘導し、競合するジェイルブレイクアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2025-10-07T09:40:20Z)
Machine Learning for Detection and Analysis of Novel LLM Jailbreaks [3.2654923574107357]
大きな言語モデル(LLM)は、悪意のあるユーザが入力テキストの操作を通じて望ましくない応答を要求できるような、さまざまな脆弱性に悩まされる。いわゆるジェイルブレイクプロンプトは、LLMを騙して安全ガードレールの設置を回避し、開発者のポリシーに受け入れられる応答を維持するように設計されている。本研究では,異なる機械学習モデルを用いて,jailbreakプロンプトを真の用途と区別する能力について分析する。
論文参考訳（メタデータ） (2025-10-02T03:55:29Z)
Formalization Driven LLM Prompt Jailbreaking via Reinforcement Learning [48.100552417137656]
PASSは、初期のジェイルブレイクプロンプトを形式化された記述に変換するために強化学習を使用している。我々は、共通のオープンソースモデルに関する広範な実験を行い、攻撃の有効性を実証した。
論文参考訳（メタデータ） (2025-09-28T01:38:00Z)
CCJA: Context-Coherent Jailbreak Attack for Aligned Large Language Models [18.06388944779541]
ジェイルブレイク(jailbreaking)とは、意図しない振る舞いをトリガーする大きな言語モデルである。本稿では,ジェイルブレイク攻撃の成功率とセマンティック・コヒーレンスとのバランスをとる新しい手法を提案する。本手法は攻撃効率において最先端のベースラインよりも優れている。
論文参考訳（メタデータ） (2025-02-17T02:49:26Z)
Rewrite to Jailbreak: Discover Learnable and Transferable Implicit Harmfulness Instruction [32.04296423547049]
大規模言語モデル(LLM)は様々な領域に広く適用されている。 LLMを攻撃するための転送可能なブラックボックスジェイルブレイク法であるRewrite to Jailbreak (R2J)アプローチを提案する。
論文参考訳（メタデータ） (2025-02-16T11:43:39Z)
xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文参考訳（メタデータ） (2025-01-28T06:07:58Z)
Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文参考訳（メタデータ） (2024-10-15T06:31:04Z)
EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。 LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文参考訳（メタデータ） (2024-08-07T07:46:08Z)
AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文参考訳（メタデータ） (2024-03-14T15:57:13Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)
AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文参考訳（メタデータ） (2023-10-23T17:46:07Z)
FuzzLLM: A Novel and Universal Fuzzing Framework for Proactively Discovering Jailbreak Vulnerabilities in Large Language Models [11.517609196300217]
FuzzLLMは,大規模言語モデル(LLM)におけるジェイルブレイク脆弱性を積極的にテストし,発見するために設計された,自動ファジリングフレームワークである。テンプレートを使用してプロンプトの構造的整合性をキャプチャし、制約としてJailbreakクラスの重要な特徴を分離します。異なるベースクラスを強力なコンボ攻撃に統合し、制約や禁止された質問の要素を変更することで、FazLLMは手作業の少ない効率的なテストを可能にする。
論文参考訳（メタデータ） (2023-09-11T07:15:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。