論文の概要: A Mousetrap: Fooling Large Reasoning Models for Jailbreak with Chain of Iterative Chaos
- arxiv url: http://arxiv.org/abs/2502.15806v1
- Date: Wed, 19 Feb 2025 07:23:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:59:46.551561
- Title: A Mousetrap: Fooling Large Reasoning Models for Jailbreak with Chain of Iterative Chaos
- Title(参考訳): ジェイルブレイクのための大規模な推論モデルと反復カオスの連鎖
- Authors: Yang Yao, Xuan Tong, Ruofan Wang, Yixu Wang, Lujundong Li, Liang Liu, Yan Teng, Yingchun Wang,
- Abstract要約: Large Reasoning Models (LRM) は従来のLarge Language Models (LLM) よりも大幅に進歩している。
LRMを標的とした最初のジェイルブレイク攻撃を提案する。
具体的には、多様な1対1マッピングで攻撃プロンプトを変換する新しいコンポーネントであるChaos Machineを紹介する。
- 参考スコア(独自算出の注目度): 11.251363342476491
- License:
- Abstract: Large Reasoning Models (LRMs) have significantly advanced beyond traditional Large Language Models (LLMs) with their exceptional logical reasoning capabilities, yet these improvements introduce heightened safety risks. When subjected to jailbreak attacks, their ability to generate more targeted and organized content can lead to greater harm. Although some studies claim that reasoning enables safer LRMs against existing LLM attacks, they overlook the inherent flaws within the reasoning process itself. To address this gap, we propose the first jailbreak attack targeting LRMs, exploiting their unique vulnerabilities stemming from the advanced reasoning capabilities. Specifically, we introduce a Chaos Machine, a novel component to transform attack prompts with diverse one-to-one mappings. The chaos mappings iteratively generated by the machine are embedded into the reasoning chain, which strengthens the variability and complexity and also promotes a more robust attack. Based on this, we construct the Mousetrap framework, which makes attacks projected into nonlinear-like low sample spaces with mismatched generalization enhanced. Also, due to the more competing objectives, LRMs gradually maintain the inertia of unpredictable iterative reasoning and fall into our trap. Success rates of the Mousetrap attacking o1-mini, claude-sonnet and gemini-thinking are as high as 96%, 86% and 98% respectively on our toxic dataset Trotter. On benchmarks such as AdvBench, StrongREJECT, and HarmBench, attacking claude-sonnet, well-known for its safety, Mousetrap can astonishingly achieve success rates of 87.5%, 86.58% and 93.13% respectively. Attention: This paper contains inappropriate, offensive and harmful content.
- Abstract(参考訳): 大規模推論モデル (LRM) は従来のLarge Language Models (LLM) よりも格段に進歩しているが、これらの改善は安全性のリスクを高めている。
ジェイルブレイク攻撃を受けた場合、より標的にされ、組織化されたコンテンツを生成する能力は、より大きな害をもたらす可能性がある。
一部の研究では、推論は既存のLSM攻撃に対してより安全なLEMを可能にすると主張しているが、推論プロセス自体に固有の欠陥を見落としている。
このギャップに対処するために,先進的な推論能力に起因した固有の脆弱性を活かし,LEMを標的とした最初のジェイルブレイク攻撃を提案する。
具体的には、多様な1対1マッピングで攻撃プロンプトを変換する新しいコンポーネントであるChaos Machineを紹介する。
マシンが反復的に生成するカオスマッピングは推論チェーンに埋め込まれ、可変性と複雑性を強化し、より堅牢な攻撃を促進する。
そこで本研究では,非整合一般化による非線形な低サンプル空間への攻撃を促進させる,マウストラップフレームワークを構築した。
また、より競合する目的のために、LRMは予測不可能な反復推論の慣性を維持し、我々の罠に陥る。
o1-mini, claude-sonnet, gemini-thinkingのマウストラップ攻撃の成功率は, 有毒なデータセットTrotterでそれぞれ96%, 86%, 98%であった。
AdvBench、StrongREJECT、HarmBenchなどのベンチマークでは、安全で有名なクロードソネットを攻撃し、それぞれ87.5%、86.58%、93.13%の成功率を達成した。
注意: 本論文は不適切で不快で有害な内容を含む。
関連論文リスト
- H-CoT: Hijacking the Chain-of-Thought Safety Reasoning Mechanism to Jailbreak Large Reasoning Models, Including OpenAI o1/o3, DeepSeek-R1, and Gemini 2.0 Flash Thinking [22.760366525219762]
大規模推論モデル(LRM)は先日,その強力な推論能力を安全性チェックにまで拡張した。
このベンチマークは、正当な教育プロンプトの下に非常に危険な、または悪意のある要求を偽装するものです。
当社の実験では,OpenAI o1/o3,DeepSeek-R1,Gemini 2.0 Flash Thinkingなど,一般的な商用LRMの重大なセキュリティ欠陥が明らかになった。
論文 参考訳(メタデータ) (2025-02-18T14:29:12Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。
我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation [71.92055093709924]
そこで本稿では, ガーブレッドの逆数プロンプトを, 一貫性のある, 可読性のある自然言語の逆数プロンプトに"翻訳"する手法を提案する。
また、jailbreakプロンプトの効果的な設計を発見し、jailbreak攻撃の理解を深めるための新しいアプローチも提供する。
本稿では,AdvBench上でのLlama-2-Chatモデルに対する攻撃成功率は90%以上である。
論文 参考訳(メタデータ) (2024-10-15T06:31:04Z) - h4rm3l: A Dynamic Benchmark of Composable Jailbreak Attacks for LLM Safety Assessment [48.5611060845958]
我々は,静的なデータセットや攻撃や被害を克服するために,構成可能なジェイルブレイク攻撃の新たなベンチマークを提案する。
我々は、h4rm3lを使用して、6つの最先端(SOTA)オープンソースおよびプロプライエタリなLLMをターゲットにした2656の新たなジェイルブレイク攻撃のデータセットを生成する。
合成攻撃のいくつかは、以前報告した攻撃よりも効果的であり、SOTAクローズド言語モデルでは、アタック成功率は90%以上である。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z) - Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。