論文の概要: Bag of Tricks for Subverting Reasoning-based Safety Guardrails
- arxiv url: http://arxiv.org/abs/2510.11570v1
- Date: Mon, 13 Oct 2025 16:16:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.450262
- Title: Bag of Tricks for Subverting Reasoning-based Safety Guardrails
- Title(参考訳): 共振式安全ガードレールの転覆用トリックの袋
- Authors: Shuo Chen, Zhen Han, Haokun Chen, Bailan He, Shengyun Si, Jingpei Wu, Philip Torr, Volker Tresp, Jindong Gu,
- Abstract要約: 推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
- 参考スコア(独自算出の注目度): 62.139297207938036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent reasoning-based safety guardrails for Large Reasoning Models (LRMs), such as deliberative alignment, have shown strong defense against jailbreak attacks. By leveraging LRMs' reasoning ability, these guardrails help the models to assess the safety of user inputs before generating final responses. The powerful reasoning ability can analyze the intention of the input query and will refuse to assist once it detects the harmful intent hidden by the jailbreak methods. Such guardrails have shown a significant boost in defense, such as the near-perfect refusal rates on the open-source gpt-oss series. Unfortunately, we find that these powerful reasoning-based guardrails can be extremely vulnerable to subtle manipulation of the input prompts, and once hijacked, can lead to even more harmful results. Specifically, we first uncover a surprisingly fragile aspect of these guardrails: simply adding a few template tokens to the input prompt can successfully bypass the seemingly powerful guardrails and lead to explicit and harmful responses. To explore further, we introduce a bag of jailbreak methods that subvert the reasoning-based guardrails. Our attacks span white-, gray-, and black-box settings and range from effortless template manipulations to fully automated optimization. Along with the potential for scalable implementation, these methods also achieve alarmingly high attack success rates (e.g., exceeding 90% across 5 different benchmarks on gpt-oss series on both local host models and online API services). Evaluations across various leading open-source LRMs confirm that these vulnerabilities are systemic, underscoring the urgent need for stronger alignment techniques for open-sourced LRMs to prevent malicious misuse. Code is open-sourced at https://chenxshuo.github.io/bag-of-tricks.
- Abstract(参考訳): 大規模推論モデル(LRM)の最近の安全ガードレールは、熟考的アライメントなど、ジェイルブレイク攻撃に対する強力な防御力を示している。
LRMの推論能力を活用することで、これらのガードレールは最終的な応答を生成する前に、モデルのユーザ入力の安全性を評価するのに役立つ。
強力な推論能力は、入力クエリの意図を分析し、jailbreakメソッドに隠された有害なインテントを検出したら、アシストを拒否する。
このようなガードレールは、オープンソースのgpt-ossシリーズにおけるほぼ完全な拒絶率など、防衛の大幅な向上を示している。
残念ながら、これらの強力な推論ベースのガードレールは入力プロンプトの微妙な操作に対して極めて脆弱であり、一度ハイジャックされるとさらに有害な結果をもたらす可能性がある。
入力プロンプトにいくつかのテンプレートトークンを追加するだけで、一見強力なガードレールを回避でき、明示的で有害な応答につながるのです。
さらに詳しく調べるために、我々は、推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を紹介した。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
スケーラブルな実装の可能性に加えて、これらの手法は驚くほど高い攻撃成功率を達成する(例えば、ローカルホストモデルとオンラインAPIサービスの両方でgpt-ossシリーズの5つのベンチマークで90%を超える)。
様々な主要なオープンソース LRM の評価は、これらの脆弱性がシステム的であることを確認しており、悪意ある誤用を防ぐために、オープンソース LRM のアライメント技術強化が緊急に必要であることを示している。
コードはhttps://chenxshuo.github.io/bag-of-tricks.comで公開されている。
関連論文リスト
- Bypassing Prompt Guards in Production with Controlled-Release Prompting [11.65770031195044]
我々は、彼らの制限を強調して、プロンプトガードを回避できる新しい攻撃を導入する。
我々の手法は、応答品質を維持しながら生産モデルを継続的にジェイルブレイクする。
これは、現代のLLMアーキテクチャにおいて、軽量プロンプトガードに固有の攻撃面を明らかにしている。
論文 参考訳(メタデータ) (2025-10-02T00:04:21Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。
強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。
我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文 参考訳(メタデータ) (2025-01-28T06:07:58Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
既存のジェイルブレイク法は計算コストがかかる。
我々は、弱々しく強固な脱獄攻撃を提案する。
論文 参考訳(メタデータ) (2024-01-30T18:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。