論文の概要: Three Minds, One Legend: Jailbreak Large Reasoning Model with Adaptive Stacked Ciphers
- arxiv url: http://arxiv.org/abs/2505.16241v1
- Date: Thu, 22 May 2025 05:19:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.052357
- Title: Three Minds, One Legend: Jailbreak Large Reasoning Model with Adaptive Stacked Ciphers
- Title(参考訳): 3つの心と1つの伝説:アダプティブ・スタックド・暗号を用いた大規模推論モデルのジェイルブレイク
- Authors: Viet-Anh Nguyen, Shiqian Zhao, Gia Dao, Runyi Hu, Yi Xie, Luu Anh Tuan,
- Abstract要約: Large Reasoning Models (LRMs) は従来のLarge Language Models (LLMs) と比較して優れた論理能力を示している。
SEALは新たなジェイルブレイク攻撃であり、彼らの推論プロセスをオーバーライドし、潜在的な適応アライメントを回避するように設計された適応型暗号化パイプラインを通じてLEMをターゲットにしている。
SEAL は GPT o4-mini の攻撃成功率 80.8% を達成し、最先端のベースラインを27.2% で上回っている。
- 参考スコア(独自算出の注目度): 14.262681970049172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Large Reasoning Models (LRMs) have demonstrated superior logical capabilities compared to traditional Large Language Models (LLMs), gaining significant attention. Despite their impressive performance, the potential for stronger reasoning abilities to introduce more severe security vulnerabilities remains largely underexplored. Existing jailbreak methods often struggle to balance effectiveness with robustness against adaptive safety mechanisms. In this work, we propose SEAL, a novel jailbreak attack that targets LRMs through an adaptive encryption pipeline designed to override their reasoning processes and evade potential adaptive alignment. Specifically, SEAL introduces a stacked encryption approach that combines multiple ciphers to overwhelm the models reasoning capabilities, effectively bypassing built-in safety mechanisms. To further prevent LRMs from developing countermeasures, we incorporate two dynamic strategies - random and adaptive - that adjust the cipher length, order, and combination. Extensive experiments on real-world reasoning models, including DeepSeek-R1, Claude Sonnet, and OpenAI GPT-o4, validate the effectiveness of our approach. Notably, SEAL achieves an attack success rate of 80.8% on GPT o4-mini, outperforming state-of-the-art baselines by a significant margin of 27.2%. Warning: This paper contains examples of inappropriate, offensive, and harmful content.
- Abstract(参考訳): 近年,Large Reasoning Models (LRMs) は従来のLarge Language Models (LLMs) に比べて優れた論理能力を示し,注目を集めている。
優れたパフォーマンスにもかかわらず、より深刻なセキュリティ脆弱性を導入する強力な推論能力の可能性は、大半が未調査のままである。
既存のジェイルブレイク法は、しばしば適応安全機構に対する堅牢性と有効性のバランスをとるのに苦労する。
本研究は,論理処理をオーバーライドし,アダプティブアライメントを回避するために設計された適応型暗号化パイプラインを通じて,LEMを標的とした新たなジェイルブレイク攻撃であるSEALを提案する。
具体的には、SEALは、複数の暗号を組み合わせてモデル推論能力を圧倒し、ビルトインの安全性メカニズムを効果的にバイパスする、スタックされた暗号化アプローチを導入している。
さらに, LRMが対策を開発するのを防ぐために, 暗号長, 順序, 組み合わせを調整する2つの動的戦略(ランダムと適応)を組み込んだ。
DeepSeek-R1、Claude Sonnet、OpenAI GPT-o4など、現実世界の推論モデルに関する大規模な実験により、我々のアプローチの有効性が検証された。
特に、SEAL は GPT o4-mini の攻撃成功率 80.8% を達成し、最先端のベースラインを27.2% で上回っている。
警告: 本論文は不適切で攻撃的で有害な内容の例を含む。
関連論文リスト
- Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。