論文の概要: Alignment-Weighted DPO: A principled reasoning approach to improve safety alignment
- arxiv url: http://arxiv.org/abs/2602.21346v1
- Date: Tue, 24 Feb 2026 20:30:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.598944
- Title: Alignment-Weighted DPO: A principled reasoning approach to improve safety alignment
- Title(参考訳): 配向重み付きDPO:安全アライメント改善のための原理的推論手法
- Authors: Mengxuan Hu, Vivek V. Datla, Anoop Kumar, Zihan Guan, Sheng Li, Alfy Samuel, Daben Liu,
- Abstract要約: 大規模な言語モデルは、有害な意図を偽装する攻撃に対して脆弱である。
この脆弱性は、深い推論を欠く浅いアライメント機構に由来する。
本稿では,推論学習によるアライメントの強化を提案する。
- 参考スコア(独自算出の注目度): 13.463606100715504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in alignment techniques such as Supervised Fine-Tuning (SFT), Reinforcement Learning from Human Feedback (RLHF), and Direct Preference Optimization (DPO) have improved the safety of large language models (LLMs). However, these LLMs remain vulnerable to jailbreak attacks that disguise harmful intent through indirect or deceptive phrasing. Using causal intervention, we empirically demonstrate that this vulnerability stems from shallow alignment mechanisms that lack deep reasoning, often rejecting harmful prompts without truly understanding why they are harmful. To mitigate this vulnerability, we propose enhancing alignment through reasoning-aware post-training. We construct and release a novel Chain-of-Thought (CoT) fine-tuning dataset that includes both utility-oriented and safety-critical prompts with step-by-step rationales. Fine-tuning on this dataset encourages models to produce principled refusals grounded in reasoning, outperforming standard SFT baselines. Furthermore, inspired by failure patterns in CoT fine-tuning, we introduce Alignment-Weighted DPO, which targets the most problematic parts of an output by assigning different preference weights to the reasoning and final-answer segments. This produces finer-grained, targeted updates than vanilla DPO and improves robustness to diverse jailbreak strategies. Extensive experiments across multiple safety and utility benchmarks show that our method consistently improves alignment robustness while maintaining overall model utility.
- Abstract(参考訳): 監視ファインチューニング(SFT)、人間からのフィードバックからの強化学習(RLHF)、直接選好最適化(DPO)などのアライメント技術の進歩により、大規模言語モデル(LLM)の安全性が向上した。
しかし、これらのLSMは、間接的または偽りの言い回しによって有害な意図を偽装するジェイルブレイク攻撃に弱いままである。
因果的介入を用いて、この脆弱性は深い推論を欠いている浅いアライメント機構に由来することを実証的に証明し、しばしば有害なプロンプトを拒絶するが、なぜそれが有害であるかを真に理解しない。
この脆弱性を緩和するために、推論を意識したポストトレーニングによるアライメントの強化を提案する。
ユーティリティ指向および安全クリティカルなプロンプトとステップバイステップの合理性を含む,新しいChain-of-Thought(CoT)微調整データセットを構築し,リリースする。
このデータセットの微調整は、標準のSFTベースラインを上回り、推論に基づく原則化された拒絶を生成することをモデルに奨励する。
さらに,CoTファインタニングにおける故障パターンに着想を得たアライメント重み付きDPOを導入する。
これにより、バニラDPOよりもきめ細やかな目標更新が実現され、多様なジェイルブレイク戦略に対する堅牢性が改善される。
複数の安全性および実用性ベンチマークにわたる大規模な実験により、本手法はモデルユーティリティ全体を維持しながら、一貫したアライメントロバスト性の向上を図っている。
関連論文リスト
- THINKSAFE: Self-Generated Safety Alignment for Reasoning Models [60.10077024249373]
外部の教師がいなくても安心して安心できるフレームワークであるThinkSafeを提案する。
我々の重要な洞察は、コンプライアンスは安全メカニズムを抑制するが、モデルはしばしば害を特定するために潜伏した知識を保持することである。
DeepSeek-R1-DistillとQwen3の実験では、ThinkSafeは推論能力を維持しながら安全性を大幅に向上している。
論文 参考訳(メタデータ) (2026-01-30T16:31:02Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - SAFER: Advancing Safety Alignment via Efficient Ex-Ante Reasoning [51.78514648677898]
我々は,eFficient Ex-Ante Reasoningによる安全アライメントの枠組みであるSAFERを提案する。
提案手法は,初期評価,ルール検証,経路校正などを通じて,構造化されたex-Ante推論をインスタンス化する。
複数のオープンソース LLM の実験により,SAFER は有用性と応答効率を保ちながら安全性を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-04-03T16:07:38Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。