論文の概要: Three Minds, One Legend: Jailbreak Large Reasoning Model with Adaptive Stacked Ciphers
- arxiv url: http://arxiv.org/abs/2505.16241v3
- Date: Mon, 26 May 2025 02:28:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:55.540223
- Title: Three Minds, One Legend: Jailbreak Large Reasoning Model with Adaptive Stacked Ciphers
- Title(参考訳): 3つの心と1つの伝説:アダプティブ・スタックド・暗号を用いた大規模推論モデルのジェイルブレイク
- Authors: Viet-Anh Nguyen, Shiqian Zhao, Gia Dao, Runyi Hu, Yi Xie, Luu Anh Tuan,
- Abstract要約: Large Reasoning Models (LRMs) は従来のLarge Language Models (LLMs) と比較して優れた論理能力を示している。
SEALは新たなジェイルブレイク攻撃であり、彼らの推論プロセスをオーバーライドし、潜在的な適応アライメントを回避するように設計された適応型暗号化パイプラインを通じてLEMをターゲットにしている。
SEAL は GPT o4-mini の攻撃成功率 80.8% を達成し、最先端のベースラインを27.2% で上回っている。
- 参考スコア(独自算出の注目度): 14.262681970049172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Large Reasoning Models (LRMs) have demonstrated superior logical capabilities compared to traditional Large Language Models (LLMs), gaining significant attention. Despite their impressive performance, the potential for stronger reasoning abilities to introduce more severe security vulnerabilities remains largely underexplored. Existing jailbreak methods often struggle to balance effectiveness with robustness against adaptive safety mechanisms. In this work, we propose SEAL, a novel jailbreak attack that targets LRMs through an adaptive encryption pipeline designed to override their reasoning processes and evade potential adaptive alignment. Specifically, SEAL introduces a stacked encryption approach that combines multiple ciphers to overwhelm the models reasoning capabilities, effectively bypassing built-in safety mechanisms. To further prevent LRMs from developing countermeasures, we incorporate two dynamic strategies - random and adaptive - that adjust the cipher length, order, and combination. Extensive experiments on real-world reasoning models, including DeepSeek-R1, Claude Sonnet, and OpenAI GPT-o4, validate the effectiveness of our approach. Notably, SEAL achieves an attack success rate of 80.8% on GPT o4-mini, outperforming state-of-the-art baselines by a significant margin of 27.2%. Warning: This paper contains examples of inappropriate, offensive, and harmful content.
- Abstract(参考訳): 近年,Large Reasoning Models (LRMs) は従来のLarge Language Models (LLMs) に比べて優れた論理能力を示し,注目を集めている。
優れたパフォーマンスにもかかわらず、より深刻なセキュリティ脆弱性を導入する強力な推論能力の可能性は、大半が未調査のままである。
既存のジェイルブレイク法は、しばしば適応安全機構に対する堅牢性と有効性のバランスをとるのに苦労する。
本研究は,論理処理をオーバーライドし,アダプティブアライメントを回避するために設計された適応型暗号化パイプラインを通じて,LEMを標的とした新たなジェイルブレイク攻撃であるSEALを提案する。
具体的には、SEALは、複数の暗号を組み合わせてモデル推論能力を圧倒し、ビルトインの安全性メカニズムを効果的にバイパスする、スタックされた暗号化アプローチを導入している。
さらに, LRMが対策を開発するのを防ぐために, 暗号長, 順序, 組み合わせを調整する2つの動的戦略(ランダムと適応)を組み込んだ。
DeepSeek-R1、Claude Sonnet、OpenAI GPT-o4など、現実世界の推論モデルに関する大規模な実験により、我々のアプローチの有効性が検証された。
特に、SEAL は GPT o4-mini の攻撃成功率 80.8% を達成し、最先端のベースラインを27.2% で上回っている。
警告: 本論文は不適切で攻撃的で有害な内容の例を含む。
関連論文リスト
- ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [49.47193675702453]
大規模言語モデル(LLM)は、顕著な生成能力を示している。
LLMは、安全上の制約を回避できる悪意のある命令に弱いままである。
推論に基づく安全アライメントフレームワークARMORを提案する。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Advancing Jailbreak Strategies: A Hybrid Approach to Exploiting LLM Vulnerabilities and Bypassing Modern Defenses [4.706534644850809]
2つの主要な推論フェーズの脅威はトークンレベルとプロンプトレベルのジェイルブレイクである。
トークンレベルの手法とプロンプトレベルの手法を統合した2つのハイブリッドアプローチを提案し,多様なPTLMにおけるジェイルブレイクの有効性を向上する。
論文 参考訳(メタデータ) (2025-06-27T07:26:33Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - Exploring the Vulnerability of the Content Moderation Guardrail in Large Language Models via Intent Manipulation [18.37303422539757]
本研究では,意図認識型ガードレールの脆弱性を調査し,大規模言語モデルが暗黙の意図検出能力を示すことを示す。
IntentPromptという2段階のインテントベースのプロンプトリファインメントフレームワークを提案し、まず有害な問い合わせを構造化されたアウトラインに変換し、さらに宣言的なスタイルの物語に再構成する。
われわれのフレームワークは、最先端のジェイルブレイク手法を一貫して上回り、さらに高度なIntent Analysis(IA)とChain-of-Thought(CoT)ベースの防御を回避している。
論文 参考訳(メタデータ) (2025-05-24T06:47:32Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [26.812138599896997]
本稿では,大規模言語モデルの生成に安全性を考慮した推論機構を組み込んだ新しいトレーニングパラダイムであるReasoning-to-Defend(R2D)を提案する。
R2Dは応答の安全性の指標として安全ピボットトークンを形成する。
R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しつつ全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。