論文の概要: Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away
- arxiv url: http://arxiv.org/abs/2602.11096v1
- Date: Wed, 11 Feb 2026 18:09:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.295154
- Title: Safety Recovery in Reasoning Models Is Only a Few Early Steering Steps Away
- Title(参考訳): 推論モデルにおける安全性の回復は、ほんの少しの早期ステアリングステップにすぎない
- Authors: Soumya Suvra Ghosal, Souradip Chakraborty, Vaibhav Singh, Furong Huang, Dinesh Manocha, Amrit Singh Bedi,
- Abstract要約: 本稿では,安全回復を目的ではなく満足度の高い制約として扱う軽量な推論時防衛法を提案する。
6つのオープンソースMLRMと4つのjailbreakベンチマークで評価した結果、SafeThinkは攻撃成功率を30~60%削減しました。
- 参考スコア(独自算出の注目度): 97.11976870616273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) based post-training for explicit chain-of-thought (e.g., GRPO) improves the reasoning ability of multimodal large-scale reasoning models (MLRMs). But recent evidence shows that it can simultaneously degrade safety alignment and increase jailbreak success rates. We propose SafeThink, a lightweight inference-time defense that treats safety recovery as a satisficing constraint rather than a maximization objective. SafeThink monitors the evolving reasoning trace with a safety reward model and conditionally injects an optimized short corrective prefix ("Wait, think safely") only when the safety threshold is violated. In our evaluations across six open-source MLRMs and four jailbreak benchmarks (JailbreakV-28K, Hades, FigStep, and MM-SafetyBench), SafeThink reduces attack success rates by 30-60% (e.g., LlamaV-o1: 63.33% to 5.74% on JailbreakV-28K, R1-Onevision: 69.07% to 5.65% on Hades) while preserving reasoning performance (MathVista accuracy: 65.20% to 65.00%). A key empirical finding from our experiments is that safety recovery is often only a few steering steps away: intervening in the first 1-3 reasoning steps typically suffices to redirect the full generation toward safe completions.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)に基づく明示的連鎖学習(例えばGRPO)は,マルチモーダル大規模推論モデル(MLRM)の推論能力を向上させる。
しかし最近の証拠は、安全の確保と脱獄の成功率の向上を同時に行うことができることを示している。
セーフシンク(SafeThink)は、安全回復を最大化目的ではなく満足な制約として扱う軽量な推論時防衛法である。
SafeThinkは、安全報酬モデルで進化する推論トレースを監視し、安全しきい値に違反した場合のみ、最適化された短い修正プレフィックス("Wait, think safe")を条件付きで注入する。
JailbreakV-28K、Hades、FigStep、MM-SafetyBenchの6つのオープンソースMLRMと4つのjailbreakベンチマーク(JailbreakV-28K、Hades、FigStep、MM-SafetyBench)で評価したところ、SafeThinkは、推論性能(MathVistaの精度:65.20%から65.00%)を維持しながら、攻撃成功率を30-60%(eg、LlamaV-o1:63.33%から5.74%に引き下げた。
私たちの実験から得られた重要な経験的発見は、安全回復はほんの数歩しか離れていないということだ。
関連論文リスト
- THINKSAFE: Self-Generated Safety Alignment for Reasoning Models [60.10077024249373]
外部の教師がいなくても安心して安心できるフレームワークであるThinkSafeを提案する。
我々の重要な洞察は、コンプライアンスは安全メカニズムを抑制するが、モデルはしばしば害を特定するために潜伏した知識を保持することである。
DeepSeek-R1-DistillとQwen3の実験では、ThinkSafeは推論能力を維持しながら安全性を大幅に向上している。
論文 参考訳(メタデータ) (2026-01-30T16:31:02Z) - How Does the Thinking Step Influence Model Safety? An Entropy-based Safety Reminder for LRMs [10.526176863220988]
LRMの安全性を確保する上では, 思考段階におけるセーフ・リミネード・フレーズの出現が重要な役割を担っていることが判明した。
この発見に触発されたSafeRemindは、動的に安全なフレーズを思考ステップに注入するデコード時防衛法である。
決定ロックポイントに介入するためにエントロピートリガーを活用することで、SafeRemindはパラメータ更新を必要とせずに、潜在的に有害なトラジェクトリを安全な結果にリダイレクトする。
論文 参考訳(メタデータ) (2026-01-07T07:26:31Z) - Think-Reflect-Revise: A Policy-Guided Reflective Framework for Safety Alignment in Large Vision Language Models [58.17589701432514]
Think-Reflect-Revise (TRR)は、LVLM(Large Vision Language Models)の安全性向上を目的としたトレーニングフレームワークである。
まず、リフレクティブセーフティ推論(ReSafe)データセットを5000の例で構築し、シンク・リフレクティブ・リフレクティブ・プロセスに従っています。
次に、ReSafeデータセットを用いてターゲットモデルを微調整し、反射行動の初期化を行い、最後に強化学習を通じてポリシー誘導反射を強化する。
論文 参考訳(メタデータ) (2025-12-08T03:46:03Z) - Bag of Tricks for Subverting Reasoning-based Safety Guardrails [62.139297207938036]
推論に基づくガードレールを覆い隠すジェイルブレイク手法の袋を提示する。
攻撃対象は白、グレー、ブラックボックスの設定で、無駄なテンプレート操作から完全に自動化された最適化までさまざまです。
論文 参考訳(メタデータ) (2025-10-13T16:16:44Z) - Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check [32.82170313959032]
我々はAnswer-Then-Checkと呼ばれる新しい安全アライメント手法を導入する。
提案手法は,モデルが思考の質問に対して直接回答し,その安全性を批判的に評価することを可能にする。
わずか500のサンプルの小さなサブセットでのトレーニングは、完全なデータセットを使用するのに匹敵するパフォーマンスを達成できることに気付きました。
論文 参考訳(メタデータ) (2025-09-15T06:47:35Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - SAFEPATH: Preventing Harmful Reasoning in Chain-of-Thought via Early Alignment [12.206811117510448]
SAFEPATHは, LRMを微調整して, その推論の開始時に, 短時間で8個の安全プライマーを出力する軽量アライメント手法である。
実験の結果,SAFEPATHは推論性能を維持しながら有害な出力を効果的に減少させることが示された。
論文 参考訳(メタデータ) (2025-05-20T17:54:54Z) - Immune: Improving Safety Against Jailbreaks in Multi-modal LLMs via Inference-Time Alignment [97.38766396447369]
訓練時安全アライメントにもかかわらず、Multimodal Large Language Models (MLLM) はジェイルブレイク攻撃に対して脆弱である。
我々は,ジェイルブレイク攻撃に対する防御のために,制御復号化による安全な報酬モデルを活用する推論時防御フレームワークImmuneを提案する。
論文 参考訳(メタデータ) (2024-11-27T19:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。