論文の概要: Align to Misalign: Automatic LLM Jailbreak with Meta-Optimized LLM Judges
- arxiv url: http://arxiv.org/abs/2511.01375v1
- Date: Mon, 03 Nov 2025 09:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.197169
- Title: Align to Misalign: Automatic LLM Jailbreak with Meta-Optimized LLM Judges
- Title(参考訳): 過失:メタ最適化LDM審査員による自動LDM脱獄
- Authors: Hamin Koo, Minseon Kim, Jaehyung Kim,
- Abstract要約: 我々は、Jailbreakプロンプトとスコアリングテンプレートを共同で進化させるメタ最適化フレームワークAMISを紹介する。
AMISは最先端のパフォーマンスを実現しており、Claude-3.5-Haikuでは88.0%、Claude-4-Sonnetでは100.0%である。
- 参考スコア(独自算出の注目度): 10.382464507264784
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Identifying the vulnerabilities of large language models (LLMs) is crucial for improving their safety by addressing inherent weaknesses. Jailbreaks, in which adversaries bypass safeguards with crafted input prompts, play a central role in red-teaming by probing LLMs to elicit unintended or unsafe behaviors. Recent optimization-based jailbreak approaches iteratively refine attack prompts by leveraging LLMs. However, they often rely heavily on either binary attack success rate (ASR) signals, which are sparse, or manually crafted scoring templates, which introduce human bias and uncertainty in the scoring outcomes. To address these limitations, we introduce AMIS (Align to MISalign), a meta-optimization framework that jointly evolves jailbreak prompts and scoring templates through a bi-level structure. In the inner loop, prompts are refined using fine-grained and dense feedback using a fixed scoring template. In the outer loop, the template is optimized using an ASR alignment score, gradually evolving to better reflect true attack outcomes across queries. This co-optimization process yields progressively stronger jailbreak prompts and more calibrated scoring signals. Evaluations on AdvBench and JBB-Behaviors demonstrate that AMIS achieves state-of-the-art performance, including 88.0% ASR on Claude-3.5-Haiku and 100.0% ASR on Claude-4-Sonnet, outperforming existing baselines by substantial margins.
- Abstract(参考訳): 大きな言語モデル(LLM)の脆弱性を特定することは、固有の弱点に対処することによって、安全性を向上させるために不可欠である。
ジャイルブレイク(Jailbreaks)は、敵が侵入プロンプトによって安全ガードをバイパスし、意図しない行動や安全でない行動を誘発するためにLLMを探索することでレッドチームにおいて中心的な役割を果たす。
最近の最適化ベースのjailbreakアプローチでは、LLMを活用することで攻撃プロンプトを反復的に洗練する。
しかし、それらはしばしば、スパースであるバイナリアタック成功率(ASR)信号または手作業によるスコアリングテンプレートに大きく依存し、スコアリング結果に人間のバイアスと不確実性をもたらす。
この制限に対処するため、AMIS (Align to MISalign) というメタ最適化フレームワークを導入しました。
インナーループでは、固定されたスコアテンプレートを用いて微粒で高密度なフィードバックを用いてプロンプトを洗練する。
外部ループでは、テンプレートはASRアライメントスコアを使用して最適化され、クエリ間の真の攻撃結果をよりよく反映するように徐々に進化する。
この共最適化プロセスにより、より強いジェイルブレイクプロンプトとより校正されたスコア信号が得られる。
AdvBench と JBB-Behaviors の評価によると、AMIS は 88.0% ASR on Claude-3.5-Haiku と 100.0% ASR on Claude-4-Sonnet を含む最先端のパフォーマンスを達成しており、既存のベースラインをかなり上回っている。
関連論文リスト
- Latent Fusion Jailbreak: Blending Harmful and Harmless Representations to Elicit Unsafe LLM Outputs [16.25742791802536]
本稿では、有害なクエリペアから隠れた状態を補間し、禁止された応答を誘発する表現ベースの攻撃であるLatent Fusion Jailbreak(LFJ)を紹介する。
AdvBenchやMaliciousInstructといったベンチマークによるVicunaやLLaMA-2などのモデルの評価では、平均攻撃成功率(ASR)は94.01%となり、既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-08-08T17:29:16Z) - Jailbreak Attack Initializations as Extractors of Compliance Directions [5.910850302054065]
安全に配慮したLSMは、コンプライアンスまたは拒絶のプロンプトに応答する。
近年の研究では、他のプロンプトからの自己伝達による攻撃の初期化が、その性能を著しく向上させることが示されている。
コンプライアンスの方向性に沿って、未確認のプロンプトをプロジェクションすることを目的としたフレームワークであるCRIを提案する。
論文 参考訳(メタデータ) (2025-02-13T20:25:40Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds [98.20826635707341]
ジェイルブレイク攻撃は、慎重に製作されたプロンプトを通じて有害なアウトプットを引き出すことによって、安全に整合したLDMの脆弱性を露呈する。
私たちはジェイルブレイクを推論時のミスアライメントとして捉え、高速でブラックボックスのベスト・オブ・N$サンプリングアタックであるLIARを導入しました。
また、安全アライメント強度を定量化し、最適下界を導出するための理論的「ジェイルブレイクに対する安全ネット」指標も導入する。
論文 参考訳(メタデータ) (2024-12-06T18:02:59Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。