論文の概要: Align to Misalign: Automatic LLM Jailbreak with Meta-Optimized LLM Judges
- arxiv url: http://arxiv.org/abs/2511.01375v1
- Date: Mon, 03 Nov 2025 09:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.197169
- Title: Align to Misalign: Automatic LLM Jailbreak with Meta-Optimized LLM Judges
- Title(参考訳): 過失:メタ最適化LDM審査員による自動LDM脱獄
- Authors: Hamin Koo, Minseon Kim, Jaehyung Kim,
- Abstract要約: 我々は、Jailbreakプロンプトとスコアリングテンプレートを共同で進化させるメタ最適化フレームワークAMISを紹介する。
AMISは最先端のパフォーマンスを実現しており、Claude-3.5-Haikuでは88.0%、Claude-4-Sonnetでは100.0%である。
- 参考スコア(独自算出の注目度): 10.382464507264784
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Identifying the vulnerabilities of large language models (LLMs) is crucial for improving their safety by addressing inherent weaknesses. Jailbreaks, in which adversaries bypass safeguards with crafted input prompts, play a central role in red-teaming by probing LLMs to elicit unintended or unsafe behaviors. Recent optimization-based jailbreak approaches iteratively refine attack prompts by leveraging LLMs. However, they often rely heavily on either binary attack success rate (ASR) signals, which are sparse, or manually crafted scoring templates, which introduce human bias and uncertainty in the scoring outcomes. To address these limitations, we introduce AMIS (Align to MISalign), a meta-optimization framework that jointly evolves jailbreak prompts and scoring templates through a bi-level structure. In the inner loop, prompts are refined using fine-grained and dense feedback using a fixed scoring template. In the outer loop, the template is optimized using an ASR alignment score, gradually evolving to better reflect true attack outcomes across queries. This co-optimization process yields progressively stronger jailbreak prompts and more calibrated scoring signals. Evaluations on AdvBench and JBB-Behaviors demonstrate that AMIS achieves state-of-the-art performance, including 88.0% ASR on Claude-3.5-Haiku and 100.0% ASR on Claude-4-Sonnet, outperforming existing baselines by substantial margins.
- Abstract(参考訳): 大きな言語モデル(LLM)の脆弱性を特定することは、固有の弱点に対処することによって、安全性を向上させるために不可欠である。
ジャイルブレイク(Jailbreaks)は、敵が侵入プロンプトによって安全ガードをバイパスし、意図しない行動や安全でない行動を誘発するためにLLMを探索することでレッドチームにおいて中心的な役割を果たす。
最近の最適化ベースのjailbreakアプローチでは、LLMを活用することで攻撃プロンプトを反復的に洗練する。
しかし、それらはしばしば、スパースであるバイナリアタック成功率(ASR)信号または手作業によるスコアリングテンプレートに大きく依存し、スコアリング結果に人間のバイアスと不確実性をもたらす。
この制限に対処するため、AMIS (Align to MISalign) というメタ最適化フレームワークを導入しました。
インナーループでは、固定されたスコアテンプレートを用いて微粒で高密度なフィードバックを用いてプロンプトを洗練する。
外部ループでは、テンプレートはASRアライメントスコアを使用して最適化され、クエリ間の真の攻撃結果をよりよく反映するように徐々に進化する。
この共最適化プロセスにより、より強いジェイルブレイクプロンプトとより校正されたスコア信号が得られる。
AdvBench と JBB-Behaviors の評価によると、AMIS は 88.0% ASR on Claude-3.5-Haiku と 100.0% ASR on Claude-4-Sonnet を含む最先端のパフォーマンスを達成しており、既存のベースラインをかなり上回っている。
関連論文リスト
- Forewarned is Forearmed: Pre-Synthesizing Jailbreak-like Instructions to Enhance LLM Safety Guardrail to Potential Attacks [29.465042445657947]
新しい攻撃は、大きな言語モデルが目に見えない悪意のある命令を認識できないことを露呈する。
組込み空間分布解析を利用してジェイルブレイクのような命令を生成する合成フレームワークIMAGINEを提案する。
Qwen2.5, Llama3.1, Llama3.2の攻撃成功率は, 有効性を損なうことなく著しく低下した。
論文 参考訳(メタデータ) (2025-08-27T16:44:03Z) - Latent Fusion Jailbreak: Blending Harmful and Harmless Representations to Elicit Unsafe LLM Outputs [16.25742791802536]
本稿では、有害なクエリペアから隠れた状態を補間し、禁止された応答を誘発する表現ベースの攻撃であるLatent Fusion Jailbreak(LFJ)を紹介する。
AdvBenchやMaliciousInstructといったベンチマークによるVicunaやLLaMA-2などのモデルの評価では、平均攻撃成功率(ASR)は94.01%となり、既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-08-08T17:29:16Z) - JPS: Jailbreak Multimodal Large Language Models with Collaborative Visual Perturbation and Textual Steering [73.962469626788]
マルチモーダルな大規模言語モデル(MLLM)に対するジェイルブレイク攻撃は重要な研究課題である。
JPS, UnderlineJailbreak MLLMs with collaborative visual underlinePerturbation and textual underlineSteering。
論文 参考訳(メタデータ) (2025-08-07T07:14:01Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Jailbreak Attack Initializations as Extractors of Compliance Directions [5.910850302054065]
安全に配慮したLSMは、コンプライアンスまたは拒絶のプロンプトに応答する。
近年の研究では、他のプロンプトからの自己伝達による攻撃の初期化が、その性能を著しく向上させることが示されている。
コンプライアンスの方向性に沿って、未確認のプロンプトをプロジェクションすることを目的としたフレームワークであるCRIを提案する。
論文 参考訳(メタデータ) (2025-02-13T20:25:40Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds [98.20826635707341]
ジェイルブレイク攻撃は、慎重に製作されたプロンプトを通じて有害なアウトプットを引き出すことによって、安全に整合したLDMの脆弱性を露呈する。
私たちはジェイルブレイクを推論時のミスアライメントとして捉え、高速でブラックボックスのベスト・オブ・N$サンプリングアタックであるLIARを導入しました。
また、安全アライメント強度を定量化し、最適下界を導出するための理論的「ジェイルブレイクに対する安全ネット」指標も導入する。
論文 参考訳(メタデータ) (2024-12-06T18:02:59Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - An Optimizable Suffix Is Worth A Thousand Templates: Efficient Black-box Jailbreaking without Affirmative Phrases via LLM as Optimizer [33.67942887761857]
最適化可能な接尾辞を用いた新規かつ効率的なブラックボックスジェイルブレイク法であるELIPSEを提案する。
我々は,Jailbreakの目標を自然言語命令に変換するタスクプロンプトを用いて,悪意のあるクエリに対する逆接接尾辞を生成する。
ECLIPSE は3つのオープンソース LLM と GPT-3.5-Turbo に対して平均攻撃成功率 0.92 を達成し、GCG を2.4倍に上回っている。
論文 参考訳(メタデータ) (2024-08-21T03:35:24Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。