論文の概要: LIAR: Leveraging Alignment (Best-of-N) to Jailbreak LLMs in Seconds
- arxiv url: http://arxiv.org/abs/2412.05232v1
- Date: Fri, 06 Dec 2024 18:02:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:56:39.096008
- Title: LIAR: Leveraging Alignment (Best-of-N) to Jailbreak LLMs in Seconds
- Title(参考訳): LIAR:lLMを秒単位でジェイルブレイクするアライメント(Best-of-N)
- Authors: James Beetham, Souradip Chakraborty, Mengdi Wang, Furong Huang, Amrit Singh Bedi, Mubarak Shah,
- Abstract要約: LIAR(LeveragIng Alignment to jailbReak)と呼ばれる新しいジェイルブレイク手法を提案する。
安全に配慮したモデルをジェイルブレイクする可能性に関する理論的洞察を提供する。
ASRは10倍のパープレキシティ向上を実現し,10時間ではなく秒単位のタイム・トゥ・アタックを実現した。
- 参考スコア(独自算出の注目度): 98.20826635707341
- License:
- Abstract: Many existing jailbreak techniques rely on solving discrete combinatorial optimization, while more recent approaches involve training LLMs to generate multiple adversarial prompts. However, both approaches require significant computational resources to produce even a single adversarial prompt. We hypothesize that the inefficiency of current approaches stems from an inadequate characterization of the jailbreak problem. To address this gap, we formulate the jailbreak problem in terms of alignment. By starting from an available safety-aligned model, we leverage an unsafe reward to guide the safe model towards generating unsafe outputs using alignment techniques (e.g., reinforcement learning from human feedback), effectively performing jailbreaking via alignment. We propose a novel jailbreak method called LIAR (LeveragIng Alignment to jailbReak). To demonstrate the simplicity and effectiveness of our approach, we employ a best-of-N method to solve the alignment problem. LIAR offers significant advantages: lower computational requirements without additional training, fully black-box operation, competitive attack success rates, and more human-readable prompts. We provide theoretical insights into the possibility of jailbreaking a safety-aligned model, revealing inherent vulnerabilities in current alignment strategies for LLMs. We also provide sub-optimality guarantees for the proposed \algo. Experimentally, we achieve ASR comparable to the SoTA with a 10x improvement to perplexity and a Time-to-Attack measured in seconds rather than tens of hours.
- Abstract(参考訳): 多くの既存のジェイルブレイク技術は離散的な組合せ最適化を解くことに依存しているが、近年のアプローチでは複数の対向的なプロンプトを生成するためにLSMを訓練する。
しかし、どちらの手法も1つの逆のプロンプトを生成するのにかなりの計算資源を必要とする。
我々は、現在のアプローチの非効率性は、ジェイルブレイク問題の不十分な特徴に起因すると仮定する。
このギャップに対処するため、アライメントの観点からジェイルブレイク問題を定式化する。
安全アライメントモデルから始めることで、安全モデルからアライメント技術(例えば、人間からのフィードバックからの強化学習)を用いて安全でないアウトプットを生成し、アライメントを介して効果的にジェイルブレイクを行う。
LIAR(LeveragIng Alignment to jailbReak)と呼ばれる新しいジェイルブレイク手法を提案する。
本手法の単純さと有効性を示すため,アライメント問題の解法としてベスト・オブ・N法を用いる。
LIARには、追加のトレーニングなしでの計算要求の低減、完全なブラックボックス操作、競合攻撃の成功率、より可読なプロンプトなど、大きな利点がある。
我々は,LLMの現在のアライメント戦略に固有の脆弱性を明らかにするとともに,安全アライメントモデルをジェイルブレイクする可能性に関する理論的知見を提供する。
また、提案した \algo に対する準最適保証も提供する。
実験により,10倍のパープレキシティ向上と10時間ではなく秒単位のタイム・トゥ・アタックで,SoTAに匹敵するASRを実現した。
関連論文リスト
- Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
テスト時間計算による自動ジェイルブレイクに対する逆推論手法を開発した。
我々のアプローチは、LSMの脆弱性を理解するための新しいパラダイムを導入し、より堅牢で信頼性の高いAIシステムの開発の基礎を築いた。
論文 参考訳(メタデータ) (2025-02-03T18:59:01Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Shaping the Safety Boundaries: Understanding and Defending Against Jailbreaks in Large Language Models [59.25318174362368]
大規模言語モデル(LLM)におけるジェイルブレークは、LLMを騙して有害なテキストを生成するというセキュリティ上の問題である。
我々は7つの異なるジェイルブレイク法を詳細に分析し、不一致が不十分な観察サンプルから生じることを確認した。
安全境界内でのアクティベーションを適応的に制限する「textbfActivation Boundary Defense (ABD)」という新しい防衛法を提案する。
論文 参考訳(メタデータ) (2024-12-22T14:18:39Z) - GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs [3.096869664709865]
本稿では,GASP(Generative Adversarial Suffix Prompter)を提案する。
実験の結果、GASPは自然な脱獄プロンプトを生成し、攻撃成功率を大幅に改善し、トレーニング時間を短縮し、推論速度を加速できることがわかった。
論文 参考訳(メタデータ) (2024-11-21T14:00:01Z) - Unlocking Adversarial Suffix Optimization Without Affirmative Phrases: Efficient Black-box Jailbreaking via LLM as Optimizer [33.67942887761857]
最適化可能な接尾辞を用いた新規かつ効率的なブラックボックスジェイルブレイク法であるELIPSEを提案する。
我々は,Jailbreakの目標を自然言語命令に変換するタスクプロンプトを用いて,悪意のあるクエリに対する逆接接尾辞を生成する。
ECLIPSE は3つのオープンソース LLM と GPT-3.5-Turbo に対して平均攻撃成功率 0.92 を達成し、GCG を2.4倍に上回っている。
論文 参考訳(メタデータ) (2024-08-21T03:35:24Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - Efficient LLM Jailbreak via Adaptive Dense-to-sparse Constrained Optimization [46.98249466236357]
大規模言語モデル(LLM)は、有害なコンテンツを生成するジェイルブレイク攻撃の影響を受けやすい。
本稿では,新しいトークンレベル攻撃手法であるAdaptive-to-Sparse Constrained Optimization (ADC)を提案する。
論文 参考訳(メタデータ) (2024-05-15T06:11:24Z) - Distract Large Language Models for Automatic Jailbreak Attack [8.364590541640482]
大規模言語モデルの自動レッドチーム化のための新しいブラックボックスジェイルブレイクフレームワークを提案する。
我々は、Jailbreak LLMに対する反復最適化アルゴリズムを用いて、悪意のあるコンテンツの隠蔽とメモリリフレーミングを設計した。
論文 参考訳(メタデータ) (2024-03-13T11:16:43Z) - A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool Large Language Models Easily [51.63085197162279]
大きな言語モデル(LLM)は有用で安全な応答を提供するように設計されている。
ジェイルブレイク」と呼ばれる 敵のプロンプトは 保護を回避できる
有効なジェイルブレイクプロンプトを生成するためにLLM自体を活用する自動フレームワークであるReNeLLMを提案する。
論文 参考訳(メタデータ) (2023-11-14T16:02:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。