論文の概要: Jailbreaking LLMs via Calibration
- arxiv url: http://arxiv.org/abs/2602.00619v1
- Date: Sat, 31 Jan 2026 09:17:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.294139
- Title: Jailbreaking LLMs via Calibration
- Title(参考訳): 校正によるLLMの脱獄
- Authors: Yuxuan Lu, Yongkang Guo, Yuqing Kong,
- Abstract要約: 本稿では,次点予測に対する安全アライメントの効果を,事前配向分布の系統的歪みとしてモデル化する枠組みを提案する。
クロスエントロピー損失下において,ロジット・アセスメティック・ジェイルブレーキング法が特別な場合であることを示す。
- 参考スコア(独自算出の注目度): 5.438637943927842
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety alignment in Large Language Models (LLMs) often creates a systematic discrepancy between a model's aligned output and the underlying pre-aligned data distribution. We propose a framework in which the effect of safety alignment on next-token prediction is modeled as a systematic distortion of a pre-alignment distribution. We cast Weak-to-Strong Jailbreaking as a forecast aggregation problem and derive an optimal aggregation strategy characterized by a Gradient Shift in the loss-induced dual space. We show that logit-arithmetic jailbreaking methods are a special case of this framework under cross-entropy loss, and derive a broader family of aggregation rules corresponding to other proper losses. We also propose a new hybrid aggregation rule. Evaluations across red-teaming benchmarks and math utility tasks using frontier models demonstrate that our approach achieves superior Attack Success Rates and lower "Jailbreak Tax" compared with existing methods, especially on the safety-hardened gpt-oss-120b.
- Abstract(参考訳): LLM(Large Language Models)における安全性の整合性は、しばしばモデルの整合性出力と基礎となる事前整合性データ分布との体系的な相違を生じる。
本稿では,次点予測に対する安全アライメントの効果を,事前配向分布の系統的歪みとしてモデル化する枠組みを提案する。
我々はWeak-to-Strong Jailbreakingを予測集約問題とし、損失誘起双対空間の勾配シフトを特徴とする最適集約戦略を導出した。
本稿では,ロジット・アセスメティック・ジェイルブレイク法が,クロスエントロピー損失の枠組みの特別な場合であり,他の適切な損失に対応するアグリゲーションルールのより広範なファミリを導出することを示す。
また,新たなハイブリッドアグリゲーションルールを提案する。
特に安全性向上gpt-oss-120bでは,提案手法が従来の手法に比べて優れた攻撃成功率と低い「ジェイルブレイク税」を実現していることを示す。
関連論文リスト
- ForgeDAN: An Evolutionary Framework for Jailbreaking Aligned Large Language Models [8.765213350762748]
ジェイルブレイク攻撃は 有害な出力を 引き出すためにアライメント・ガードをバイパスする
セマンティック・コヒーレントで高能率な対人プロンプトを生成するための新しいフレームワークであるForgeDANを提案する。
本評価は,従来のSOTAソリューションよりも優れた自然さとステルスを維持しつつ,高い脱獄率を達成することを示す。
論文 参考訳(メタデータ) (2025-11-17T16:19:21Z) - bi-GRPO: Bidirectional Optimization for Jailbreak Backdoor Injection on LLMs [33.470999703070866]
既存のジェイルブレイクのトリガーを埋め込むアプローチは、一般化の貧弱さ、ステルスネスの妥協、文脈的ユーザビリティの低下といった制限に悩まされている。
ジェイルブレイクバックドア注入に適した新しいRLベースのフレームワークであるbi-GRPOを提案する。
論文 参考訳(メタデータ) (2025-09-24T05:56:41Z) - Forewarned is Forearmed: Pre-Synthesizing Jailbreak-like Instructions to Enhance LLM Safety Guardrail to Potential Attacks [29.465042445657947]
新しい攻撃は、大きな言語モデルが目に見えない悪意のある命令を認識できないことを露呈する。
組込み空間分布解析を利用してジェイルブレイクのような命令を生成する合成フレームワークIMAGINEを提案する。
Qwen2.5, Llama3.1, Llama3.2の攻撃成功率は, 有効性を損なうことなく著しく低下した。
論文 参考訳(メタデータ) (2025-08-27T16:44:03Z) - Latent Fusion Jailbreak: Blending Harmful and Harmless Representations to Elicit Unsafe LLM Outputs [16.25742791802536]
本稿では、有害なクエリペアから隠れた状態を補間し、禁止された応答を誘発する表現ベースの攻撃であるLatent Fusion Jailbreak(LFJ)を紹介する。
AdvBenchやMaliciousInstructといったベンチマークによるVicunaやLLaMA-2などのモデルの評価では、平均攻撃成功率(ASR)は94.01%となり、既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-08-08T17:29:16Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - LIAR: Leveraging Inference Time Alignment (Best-of-N) to Jailbreak LLMs in Seconds [98.20826635707341]
ジェイルブレイク攻撃は、慎重に製作されたプロンプトを通じて有害なアウトプットを引き出すことによって、安全に整合したLDMの脆弱性を露呈する。
私たちはジェイルブレイクを推論時のミスアライメントとして捉え、高速でブラックボックスのベスト・オブ・N$サンプリングアタックであるLIARを導入しました。
また、安全アライメント強度を定量化し、最適下界を導出するための理論的「ジェイルブレイクに対する安全ネット」指標も導入する。
論文 参考訳(メタデータ) (2024-12-06T18:02:59Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。