論文の概要: VERA: Variational Inference Framework for Jailbreaking Large Language Models
- arxiv url: http://arxiv.org/abs/2506.22666v1
- Date: Fri, 27 Jun 2025 22:22:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.505114
- Title: VERA: Variational Inference Framework for Jailbreaking Large Language Models
- Title(参考訳): VERA:大規模言語モデルのジェイルブレークのための変分推論フレームワーク
- Authors: Anamika Lochab, Lu Yan, Patrick Pynadath, Xiangyu Zhang, Ruqi Zhang,
- Abstract要約: 最先端のLDMへのAPIのみアクセスは、効果的なブラックボックスジェイルブレイクメソッドの必要性を強調している。
VERA: variational infErence fRamework for jAilbreakingを紹介する。
- 参考スコア(独自算出の注目度): 15.03256687264469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of API-only access to state-of-the-art LLMs highlights the need for effective black-box jailbreak methods to identify model vulnerabilities in real-world settings. Without a principled objective for gradient-based optimization, most existing approaches rely on genetic algorithms, which are limited by their initialization and dependence on manually curated prompt pools. Furthermore, these methods require individual optimization for each prompt, failing to provide a comprehensive characterization of model vulnerabilities. To address this gap, we introduce VERA: Variational infErence fRamework for jAilbreaking. VERA casts black-box jailbreak prompting as a variational inference problem, training a small attacker LLM to approximate the target LLM's posterior over adversarial prompts. Once trained, the attacker can generate diverse, fluent jailbreak prompts for a target query without re-optimization. Experimental results show that VERA achieves strong performance across a range of target LLMs, highlighting the value of probabilistic inference for adversarial prompt generation.
- Abstract(参考訳): 最先端のLDMへのAPIのみアクセスの増加は、実世界の設定でモデル脆弱性を特定する効果的なブラックボックスジェイルブレイクメソッドの必要性を強調している。
勾配に基づく最適化の原則的な目的がなければ、既存のほとんどのアプローチは、初期化と手作業によるプロンプトプールへの依存によって制限される遺伝的アルゴリズムに依存している。
さらに、これらの手法は各プロンプトに対して個別の最適化を必要とし、モデルの脆弱性を包括的に特徴づけることができない。
このギャップに対処するために、VERA: Variational infErence fRamework for jAilbreakingを紹介します。
VERAはブラックボックスのジェイルブレイクプロンプトを変分推論問題としてキャストし、小さな攻撃者LSMを訓練し、敵のプロンプトよりも敵のLSMの後部を近似させる。
トレーニングが完了すると、アタッカーは、再最適化することなく、ターゲットクエリに対して、多様な、スケーラブルなJailbreakプロンプトを生成することができる。
実験結果から, VERAは多種多様なLDMに対して高い性能を示し, 対向的プロンプト生成に対する確率的推論の価値を強調した。
関連論文リスト
- Adversarial Reasoning at Jailbreaking Time [49.70772424278124]
大規模言語モデル(LLM)は、より有能で広く普及している。
テスト時間計算の標準化, 測定, スケーリングの最近の進歩は, ハードタスクにおける高い性能を達成するためにモデルを最適化するための新しい手法を提案する。
本稿では、これらの進歩をジェイルブレイクモデルに応用し、協調LDMから有害な応答を誘発する。
論文 参考訳(メタデータ) (2025-02-03T18:59:01Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - GASP: Efficient Black-Box Generation of Adversarial Suffixes for Jailbreaking LLMs [3.096869664709865]
本稿では,Jailbreakプロンプトを効率的に生成できる新しいフレームワークであるGenerative Adversarial Suffix Prompter(GASP)を紹介する。
我々は,GASPが自然な敵のプロンプトを生成でき,ベースラインよりもジェイルブレイクの成功を著しく改善し,トレーニング時間を短縮し,推論速度を加速できることを示す。
論文 参考訳(メタデータ) (2024-11-21T14:00:01Z) - BlackDAN: A Black-Box Multi-Objective Approach for Effective and Contextual Jailbreaking of Large Language Models [47.576957746503666]
BlackDANは、多目的最適化を備えた革新的なブラックボックス攻撃フレームワークである。
ジェイルブレイクを効果的に促進する高品質なプロンプトを生成する。
コンテキスト関連性を維持し、検出可能性を最小限にする。
論文 参考訳(メタデータ) (2024-10-13T11:15:38Z) - Jailbreaking Large Language Models Through Alignment Vulnerabilities in Out-of-Distribution Settings [57.136748215262884]
本稿では,ObscurePrompt for jailbreaking LLMを紹介し,OOD(Out-of-Distribution)データにおける脆弱なアライメントに着想を得た。
まず、脱獄過程における決定境界を定式化し、次にLLMの倫理的決定境界に不明瞭な文章がどう影響するかを考察する。
本手法は,2つの防御機構に対する有効性を保ちながら,攻撃効果の観点から従来の手法を大幅に改善する。
論文 参考訳(メタデータ) (2024-06-19T16:09:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。