論文の概要: Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model
- arxiv url: http://arxiv.org/abs/2604.09665v2
- Date: Wed, 15 Apr 2026 18:17:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.607508
- Title: Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model
- Title(参考訳): デリバティブアライメントは深いが、不確かさは残る: ベースモデルに対する不安全行動の帰属による推論時間安全の改善
- Authors: Pankayaraj Pathmanathan, Furong Huang,
- Abstract要約: モデルサイズが大きく,安全性が向上しているにもかかわらず,教師と生徒の言語モデルの間にはアライメントギャップがあることが示される。
本稿では,不安全な動作を潜在空間のベースLLMに還元するBoNサンプリング手法を提案する。
特に7つの教師モデルと6つの生徒モデルが異なるクラスとサイズで、平均攻撃成功率(ASR)はDANで28.2%、WildJailbreakで31.3%、StrongREJECTベンチマークで35.4%低下した。
- 参考スコア(独自算出の注目度): 50.29667251847595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the wide adoption of refusal training in large language models (LLMs) has showcased improvements in model safety, recent works have highlighted shortcomings due to the shallow nature of these alignment methods. To this end, the work on Deliberative alignment proposed distilling reasoning capabilities from stronger reasoning models, thereby instilling deeper safety in LLMs. In this work, we study the impact of deliberative alignment in language models. First, we show that despite being larger in model size and stronger in safety capability, there exists an alignment gap between teacher and student language models, which affects both the safety and general utility of the student model. Furthermore, we show that models aligned through deliberative alignment can retain unsafe behaviors from the base model despite learning the reasoning patterns of larger reasoning models. Building upon this observation, we propose a BoN sampling method that attributes the unsafe behavior back to the base LLMs in the latent space, thereby down-ranking unsafe responses to gain a meaningful improvement in model safety across multiple safety benchmarks with minimal loss in utility. In particular, across 7 teacher models and 6 student models of different classes and sizes, we show an average attack success rate (ASR) reduction of 28.2% in DAN, 31.3% in WildJailbreak and 35.4 % in StrongREJECT benchmarks. We further show that these safety gains prevail post RL training, thus highlighting the uncertainty in safety reasoning and it's explicit attribution to the base model.
- Abstract(参考訳): 大規模言語モデル(LLM)における拒絶訓練の広範な採用は、モデル安全性の改善を示す一方で、最近の研究は、これらのアライメント手法の浅さによる欠点を強調している。
この目的のために、議論的アライメントの研究は、より強力な推論モデルから蒸留推論能力を提案し、LLMのより深い安全性を付与した。
本研究では,言語モデルにおける熟考的アライメントの影響について検討する。
まず, モデルサイズが大きく, 安全性が向上しているにもかかわらず, 教師と生徒の言語モデルの間には, 学生モデルの安全性と汎用性の両方に影響を及ぼすアライメントギャップが存在することを示す。
さらに,検討的なアライメントによって整列されたモデルは,より大きな推論モデルの推論パターンを学習しながらも,ベースモデルから安全でない振る舞いを維持することができることを示す。
そこで本研究では,複数の安全ベンチマークにおいてモデル安全性が向上し,実用性が最小限に抑えられた場合の安全性が向上することを示すため,安全でない動作を潜在空間のLLMに還元するBoNサンプリング手法を提案する。
特に7つの教師モデルと6つの生徒モデルが異なるクラスとサイズで、平均攻撃成功率(ASR)はDANで28.2%、WildJailbreakで31.3%、StrongREJECTベンチマークで35.4%低下した。
さらに、これらの安全性向上がRLトレーニング後にも顕著であることを示し、安全推論の不確実性を強調し、それがベースモデルへの明確な貢献であることを示す。
関連論文リスト
- Contrastive Reasoning Alignment: Reinforcement Learning from Hidden Representations [27.268778254622998]
CRAFTは、モデル推論機能と隠れ表現を活用して、ジェイルブレイク攻撃に対する堅牢性を改善するアライメントフレームワークである。
我々は,2つの強力な推論モデル Qwen3-4B-Thinking と R1-Distill-Llama-8B を用いて,複数の安全ベンチマーク上で CRAFT を評価する。
論文 参考訳(メタデータ) (2026-03-18T03:00:42Z) - OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences [64.01706941950489]
現在の安全パラダイムは、主に悪意のある意図や状況違反をターゲットとしている。
我々は,自律型および実施型エージェントのロバスト展開に不可欠なパラダイムである,結果駆動型安全に向けた安全フロンティアのシフトを提案する。
本稿では,トークンレベルの自己蒸留報酬の動的参照として,モデル固有の推論を統合したCASPO(Consequence-Aware Safety Policy Optimization)フレームワークを開発する。
論文 参考訳(メタデータ) (2026-03-10T14:16:43Z) - Enhancing Safety of Large Language Models via Embedding Space Separation [24.821172423424866]
大きな言語モデル(LLM)は印象的な機能を達成したが、有害なプロンプトに対する安全性を保証することは、依然として重要な課題である。
最近の研究によると、LLMにおける有害で安全なクエリの潜伏表現(埋め込み)は、通常線形分離性を示す。
この観測により,埋め込み空間分離(ES2)という表現レベルの微調整手法を提案する。
論文 参考訳(メタデータ) (2026-03-01T07:22:38Z) - THINKSAFE: Self-Generated Safety Alignment for Reasoning Models [60.10077024249373]
外部の教師がいなくても安心して安心できるフレームワークであるThinkSafeを提案する。
我々の重要な洞察は、コンプライアンスは安全メカニズムを抑制するが、モデルはしばしば害を特定するために潜伏した知識を保持することである。
DeepSeek-R1-DistillとQwen3の実験では、ThinkSafeは推論能力を維持しながら安全性を大幅に向上している。
論文 参考訳(メタデータ) (2026-01-30T16:31:02Z) - Rethinking Deep Alignment Through The Lens Of Incomplete Learning [14.306119791052575]
自己回帰訓練中の位置依存的勾配弱化は信号減衰を引き起こし,不完全安全性学習につながることを示す。
不完全な安全学習の計算指標として,基本条件付きトークンを導入する。
Llama と Qwen モデルファミリ間の実験的評価により, 対向ロバスト性は劇的に向上した。
論文 参考訳(メタデータ) (2025-11-15T10:53:03Z) - What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。