論文の概要: Large Reasoning Models Are Autonomous Jailbreak Agents
- arxiv url: http://arxiv.org/abs/2508.04039v1
- Date: Mon, 04 Aug 2025 18:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.517844
- Title: Large Reasoning Models Are Autonomous Jailbreak Agents
- Title(参考訳): 大規模な推論モデルは、自律的ジェイルブレイクエージェントである
- Authors: Thilo Hagendorff, Erik Derner, Nuria Oliver,
- Abstract要約: AIモデルに組み込まれた安全メカニズムをバイパスする脱獄は、伝統的に複雑な技術手順や専門的な人間の専門知識を必要としてきた。
大規模推論モデル (LRM) の説得能力は, ジェイルブレイクを単純化し, スケールすることを示した。
本研究は,LRMが他のモデルの安全ガードレールを系統的に除去できるアライメントレグレッションを明らかにする。
- 参考スコア(独自算出の注目度): 9.694940903078656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Jailbreaking -- bypassing built-in safety mechanisms in AI models -- has traditionally required complex technical procedures or specialized human expertise. In this study, we show that the persuasive capabilities of large reasoning models (LRMs) simplify and scale jailbreaking, converting it into an inexpensive activity accessible to non-experts. We evaluated the capabilities of four LRMs (DeepSeek-R1, Gemini 2.5 Flash, Grok 3 Mini, Qwen3 235B) to act as autonomous adversaries conducting multi-turn conversations with nine widely used target models. LRMs received instructions via a system prompt, before proceeding to planning and executing jailbreaks with no further supervision. We performed extensive experiments with a benchmark of harmful prompts composed of 70 items covering seven sensitive domains. This setup yielded an overall attack success rate across all model combinations of 97.14%. Our study reveals an alignment regression, in which LRMs can systematically erode the safety guardrails of other models, highlighting the urgent need to further align frontier models not only to resist jailbreak attempts, but also to prevent them from being co-opted into acting as jailbreak agents.
- Abstract(参考訳): AIモデルに組み込まれた安全メカニズムをバイパスする脱獄は、伝統的に複雑な技術手順や専門的な人間の専門知識を必要としてきた。
本研究では、大規模推論モデル(LRM)の説得能力は、ジェイルブレイクを単純化し、拡張し、非専門家が利用できる安価な活動に変換する。
筆者らは,DepSeek-R1,Gemini 2.5 Flash,Grok 3 Mini,Qwen3 235Bの4つのLEMを,9つの広く使用されているターゲットモデルとのマルチターン通信を行う自律敵として機能する能力を評価した。
LRMはシステムプロンプトを通じて指示を受け、その後、さらなる監督なしにジェイルブレイクの計画と実行を進めた。
7つの機密ドメインをカバーする70項目からなる有害なプロンプトのベンチマークで広範な実験を行った。
この設定により、全体の攻撃成功率は97.14%となった。
本研究は, LRMが他のモデルの安全ガードレールを系統的に除去できるアライメントレグレッションを明らかにし, 脱獄に抵抗するだけでなく, 脱獄剤として機能することを防ぐためにフロンティアモデルをさらに整列させる緊急の必要性を強調した。
関連論文リスト
- Jailbreak-Tuning: Models Efficiently Learn Jailbreak Susceptibility [4.051777802443125]
本稿では、オープンウェイトやクローズドファインチューニングAPIを経由しても、有用なモデルを生成することができることを示す。
OpenAI、Google、およびAnthropicモデルはCBRNの支援、サイバー攻撃の実行、その他の犯罪活動の要求に完全に準拠する。
論文 参考訳(メタデータ) (2025-07-15T18:10:29Z) - Breaking the Ceiling: Exploring the Potential of Jailbreak Attacks through Expanding Strategy Space [32.144633825924345]
大きな言語モデル(LLM)は、安全プロトコルをバイパスするジェイルブレイク攻撃など、多くの安全リスクに悩まされている。
我々は,脱獄戦略を,ELM理論に基づく重要な構成要素に分解する新しい枠組みを開発する。
従来の手法が完全に失敗するClaude-3.5で90%以上の成功率を達成した。
論文 参考訳(メタデータ) (2025-05-27T14:48:44Z) - Three Minds, One Legend: Jailbreak Large Reasoning Model with Adaptive Stacked Ciphers [14.262681970049172]
Large Reasoning Models (LRMs) は従来のLarge Language Models (LLMs) と比較して優れた論理能力を示している。
SEALは新たなジェイルブレイク攻撃であり、彼らの推論プロセスをオーバーライドし、潜在的な適応アライメントを回避するように設計された適応型暗号化パイプラインを通じてLEMをターゲットにしている。
SEAL は GPT o4-mini の攻撃成功率 80.8% を達成し、最先端のベースラインを27.2% で上回っている。
論文 参考訳(メタデータ) (2025-05-22T05:19:42Z) - Foot-In-The-Door: A Multi-turn Jailbreak for LLMs [40.958137601841734]
主な課題はjailbreakで、敵はビルトインのセーフガードをバイパスして有害な出力を誘導する。
心理学的フット・イン・ザ・ドアの原則に着想を得て,新しいマルチターンジェイルブレイク法であるFITDを導入する。
提案手法は,中間的なブリッジプロンプトを通じてユーザクエリの悪意ある意図を段階的にエスカレートし,それ自身でモデル応答を調整し,有害な応答を誘導する。
論文 参考訳(メタデータ) (2025-02-27T06:49:16Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - IDEATOR: Jailbreaking and Benchmarking Large Vision-Language Models Using Themselves [64.46372846359694]
ブラックボックス・ジェイルブレイク攻撃のための悪意ある画像テキストペアを自律的に生成する新しいジェイルブレイク手法であるIDEATORを提案する。
実験では、IDEATORは平均5.34クエリでMiniGPT-4をジェイルブレイクする際に94%の攻撃成功率(ASR)を達成した。
IDEATORの強い転送性と自動化プロセスに基づいて,3,654個のマルチモーダルジェイルブレイクサンプルからなる安全性ベンチマークであるVLJailbreakBenchを紹介した。
論文 参考訳(メタデータ) (2024-10-29T07:15:56Z) - Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring [47.40698758003993]
そこで本研究では,ターゲットブラックボックスモデルのミラーモデルを良質なデータ蒸留により局所的に訓練することにより,悪意あるプロンプト構築を誘導するトランスファー攻撃法を提案する。
提案手法は最大攻撃成功率92%, バランス値80%を達成し, GPT-3.5 Turboに対して平均1.5のジェイルブレイククエリが検出された。
論文 参考訳(メタデータ) (2024-10-28T14:48:05Z) - Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models [50.89022445197919]
大規模言語モデル(LLM)は、人間との関わりにおいて卓越した性能を示した。
LLMは脱獄攻撃に弱いため、有害な反応が生じる。
我々は,高度LLMに対する単純かつ効果的なマルチターンジェイルブレイク戦略であるJigsaw Puzzles (JSP)を提案する。
論文 参考訳(メタデータ) (2024-10-15T10:07:15Z) - Jailbroken: How Does LLM Safety Training Fail? [92.8748773632051]
ChatGPTの初期リリースに対する"jailbreak"攻撃は、望ましくない振る舞いを引き起こす。
このような攻撃がなぜ成功し、どのように発生できるかを考察する。
障害モードを利用した新たな攻撃は、安全でない要求の収集において、すべてのプロンプトで成功します。
論文 参考訳(メタデータ) (2023-07-05T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。