論文の概要: MultiBreak: A Scalable and Diverse Multi-turn Jailbreak Benchmark for Evaluating LLM Safety
- arxiv url: http://arxiv.org/abs/2605.01687v1
- Date: Sun, 03 May 2026 02:55:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.883271
- Title: MultiBreak: A Scalable and Diverse Multi-turn Jailbreak Benchmark for Evaluating LLM Safety
- Title(参考訳): MultiBreak: LLMの安全性を評価するためのスケーラブルで多様なマルチターンジェイルブレイクベンチマーク
- Authors: Jialin Song, Xiaodong Liu, Weiwei Yang, Wuyang Chen, Mingqian Feng, Xuekai Zhu, Jianfeng Gao,
- Abstract要約: MultiBreakは、大規模言語モデル(LLM)の安全性を評価するために、スケーラブルで多様なマルチターンジェイルブレイクベンチマークである。
我々のベンチマークは、DeepSeek-R1-7BとGPT-4.1-miniの2番目に高いデータセットよりも54.0と34.6高い攻撃成功率(ASR)を達成した。
- 参考スコア(独自算出の注目度): 34.69024935656433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present MultiBreak, a scalable and diverse multi-turn jailbreak benchmark to evaluate large language model (LLM) safety. Multi-turn jailbreaks mimic natural conversational settings, making them easier to bypass safety-aligned LLM than single-turn jailbreaks. Existing multi-turn benchmarks are limited in size or rely heavily on templates, which restrict their diversity. To address this gap, we unify a wide range of harmful jailbreak intents, and introduce an active learning pipeline for expanding high-quality multi-turn adversarial prompts, where a generator is iteratively fine-tuned to produce stronger attack candidates, guided by uncertainty-based refinement. Our MultiBreak includes 10,389 multi-turn adversarial prompts, spans 2,665 distinct harmful intents, and covers the most diverse set of topics to date. Empirical evaluation shows that our benchmark achieves up to a 54.0 and 34.6 higher attack success rate (ASR)} than the second-best dataset on DeepSeek-R1-7B and GPT-4.1-mini, respectively. More importantly, safety evaluations suggest that diverse attack categories uncover fine-grained LLM vulnerabilities}, and categories that appear benign under single-turn can exhibit substantially higher adversarial effectiveness in multi-turn scenarios. These findings highlight persistent vulnerabilities of LLMs under realistic adversarial settings and establish MultiBreak as a scalable resource for advancing LLM safety.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性を評価するために,スケーラブルで多様なマルチターンジェイルブレイクベンチマークであるMultiBreakを提案する。
マルチターンジェイルブレイクは自然な会話設定を模倣し、シングルターンジェイルブレイクよりも安全性に配慮したLDMをバイパスする。
既存のマルチターンベンチマークはサイズが限られているか、テンプレートに大きく依存しているため、多様性が制限されている。
このギャップに対処するために、幅広い有害なジェイルブレイク意図を統一し、高品質なマルチターン対応プロンプトを拡大するためのアクティブな学習パイプラインを導入し、発電機を反復的に微調整して、不確実性に基づく改良によって誘導されるより強力な攻撃候補を生成する。
私たちのMultiBreakには10,389個のマルチターン対向プロンプトが含まれており、2,665個の異なる有害な意図にまたがっており、これまでで最も多様なトピックをカバーしています。
実験的な評価の結果,我々のベンチマークは,DeepSeek-R1-7B と GPT-4.1-mini の2番目のデータセットよりも 54.0 と 34.6 の高い攻撃成功率 (ASR) を達成した。
さらに、安全性評価は、様々な攻撃カテゴリが詳細なLSM脆弱性を発見できることを示している。
これらの知見は、現実的な敵設定下でのLLMの永続的脆弱性を強調し、LLM安全性を向上するためのスケーラブルなリソースとしてMultiBreakを確立した。
関連論文リスト
- The Salami Slicing Threat: Exploiting Cumulative Risks in LLM Systems [25.286238948800033]
大規模言語モデル(LLM)は、脱獄による重大なセキュリティリスクに直面している。
我々は、アライメント閾値を個別に回避する多数の低リスク入力を連鎖して動作するtextitSalami Slicing Riskを提案する。
本研究は,多ターンジェイルブレイクの広汎なリスクに対する批判的な洞察を与え,行動可能な緩和戦略を提供する。
論文 参考訳(メタデータ) (2026-04-13T11:12:30Z) - OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation [94.61617176929384]
OmniSafeBench-MMはマルチモーダル・ジェイルブレイク攻撃防御評価のための総合ツールボックスである。
13の代表的な攻撃方法と15の防衛戦略、9つの主要なリスクドメインと50のきめ細かいカテゴリにまたがる多様なデータセットを統合している。
データ、方法論、評価をオープンソースで再現可能なプラットフォームに統合することで、OmniSafeBench-MMは将来の研究のための標準化された基盤を提供する。
論文 参考訳(メタデータ) (2025-12-06T22:56:29Z) - Multimodal Safety Is Asymmetric: Cross-Modal Exploits Unlock Black-Box MLLMs Jailbreaks [33.836587055255954]
MLLM(Multimodal large language model)は、様々な現実世界のアプリケーションにまたがって大きな有用性を示している。
しかしMLLMは、敵の入力が安全上の制約を崩壊させ、非倫理的な反応を引き起こす可能性があるジェイルブレイクに弱いままです。
強化学習に基づくブラックボックスジェイルブレイク手法であるPolyJailbreakを開発した。
論文 参考訳(メタデータ) (2025-10-20T08:03:39Z) - SafePTR: Token-Level Jailbreak Defense in Multimodal LLMs via Prune-then-Restore Mechanism [123.54980913741828]
MLLM(Multimodal Large Language Models)は、視覚的推論をサポートするためにLLMを拡張する。
MLLMは、マルチモーダルなジェイルブレイク攻撃や安全なデプロイメントを妨げる可能性がある。
セーフ・プルー・テン・レストア(Safe Prune-then-Restore, SafePTR)は、有害なトークンを脆弱な層で選択的にプルーすると同時に、その後の層で良質な機能を復元する、トレーニング不要の防御フレームワークである。
論文 参考訳(メタデータ) (2025-07-02T09:22:03Z) - Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks [90.41592442792181]
大規模言語モデル(LLM)の安全性を評価するための詳細なベンチマーク SafeDialBench を提案する。
具体的には,6つの安全次元を考慮した2階層型階層型安全分類法を設計し,22の対話シナリオの下で中国語と英語の双方で4000以上のマルチターン対話を生成する。
特に,LLMの革新的なアセスメントフレームワークを構築し,安全でない情報を検出し,処理し,ジェイルブレイク攻撃時の一貫性を維持する。
論文 参考訳(メタデータ) (2025-02-16T12:08:08Z) - BlackDAN: A Black-Box Multi-Objective Approach for Effective and Contextual Jailbreaking of Large Language Models [47.576957746503666]
BlackDANは、多目的最適化を備えた革新的なブラックボックス攻撃フレームワークである。
ジェイルブレイクを効果的に促進する高品質なプロンプトを生成する。
コンテキスト関連性を維持し、検出可能性を最小限にする。
論文 参考訳(メタデータ) (2024-10-13T11:15:38Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。