Fugu-MT 論文翻訳(概要): Alignment-Weighted DPO: A principled reasoning approach to improve safety alignment

論文の概要: Alignment-Weighted DPO: A principled reasoning approach to improve safety alignment

arxiv url: http://arxiv.org/abs/2602.21346v1
Date: Tue, 24 Feb 2026 20:30:51 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.598944
Title: Alignment-Weighted DPO: A principled reasoning approach to improve safety alignment
Title（参考訳）: 配向重み付きDPO:安全アライメント改善のための原理的推論手法
Authors: Mengxuan Hu, Vivek V. Datla, Anoop Kumar, Zihan Guan, Sheng Li, Alfy Samuel, Daben Liu,
Abstract要約: 大規模な言語モデルは、有害な意図を偽装する攻撃に対して脆弱である。この脆弱性は、深い推論を欠く浅いアライメント機構に由来する。本稿では,推論学習によるアライメントの強化を提案する。
参考スコア（独自算出の注目度）: 13.463606100715504
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in alignment techniques such as Supervised Fine-Tuning (SFT), Reinforcement Learning from Human Feedback (RLHF), and Direct Preference Optimization (DPO) have improved the safety of large language models (LLMs). However, these LLMs remain vulnerable to jailbreak attacks that disguise harmful intent through indirect or deceptive phrasing. Using causal intervention, we empirically demonstrate that this vulnerability stems from shallow alignment mechanisms that lack deep reasoning, often rejecting harmful prompts without truly understanding why they are harmful. To mitigate this vulnerability, we propose enhancing alignment through reasoning-aware post-training. We construct and release a novel Chain-of-Thought (CoT) fine-tuning dataset that includes both utility-oriented and safety-critical prompts with step-by-step rationales. Fine-tuning on this dataset encourages models to produce principled refusals grounded in reasoning, outperforming standard SFT baselines. Furthermore, inspired by failure patterns in CoT fine-tuning, we introduce Alignment-Weighted DPO, which targets the most problematic parts of an output by assigning different preference weights to the reasoning and final-answer segments. This produces finer-grained, targeted updates than vanilla DPO and improves robustness to diverse jailbreak strategies. Extensive experiments across multiple safety and utility benchmarks show that our method consistently improves alignment robustness while maintaining overall model utility.
Abstract（参考訳）: 監視ファインチューニング(SFT)、人間からのフィードバックからの強化学習(RLHF)、直接選好最適化(DPO)などのアライメント技術の進歩により、大規模言語モデル(LLM)の安全性が向上した。しかし、これらのLSMは、間接的または偽りの言い回しによって有害な意図を偽装するジェイルブレイク攻撃に弱いままである。因果的介入を用いて、この脆弱性は深い推論を欠いている浅いアライメント機構に由来することを実証的に証明し、しばしば有害なプロンプトを拒絶するが、なぜそれが有害であるかを真に理解しない。この脆弱性を緩和するために、推論を意識したポストトレーニングによるアライメントの強化を提案する。ユーティリティ指向および安全クリティカルなプロンプトとステップバイステップの合理性を含む,新しいChain-of-Thought(CoT)微調整データセットを構築し,リリースする。このデータセットの微調整は、標準のSFTベースラインを上回り、推論に基づく原則化された拒絶を生成することをモデルに奨励する。さらに,CoTファインタニングにおける故障パターンに着想を得たアライメント重み付きDPOを導入する。これにより、バニラDPOよりもきめ細やかな目標更新が実現され、多様なジェイルブレイク戦略に対する堅牢性が改善される。複数の安全性および実用性ベンチマークにわたる大規模な実験により、本手法はモデルユーティリティ全体を維持しながら、一貫したアライメントロバスト性の向上を図っている。

関連論文リスト

Detoxifying LLMs via Representation Erasure-Based Preference Optimization [44.29978832356216]
Webスケールデータに基づいてトレーニングされた大規模言語モデル(LLM)は、有害な出力を生成することができる。 DPO、NPO、および同様のアルゴリズムを応用した先行防御は、有害な継続の可能性を減らす。本稿では,Representation Erasure-based Preference Optimization (REPO)を提案する。
論文参考訳（メタデータ） (2026-02-24T22:51:06Z)
THINKSAFE: Self-Generated Safety Alignment for Reasoning Models [60.10077024249373]
外部の教師がいなくても安心して安心できるフレームワークであるThinkSafeを提案する。我々の重要な洞察は、コンプライアンスは安全メカニズムを抑制するが、モデルはしばしば害を特定するために潜伏した知識を保持することである。 DeepSeek-R1-DistillとQwen3の実験では、ThinkSafeは推論能力を維持しながら安全性を大幅に向上している。
論文参考訳（メタデータ） (2026-01-30T16:31:02Z)
Self-Guided Defense: Adaptive Safety Alignment for Reasoning Models via Synthesized Guidelines [31.031589383127677]
本稿では,Synthesized Guideline-based Adaptive Safety Alignment (SGASA)フレームワークを紹介する。モデル生成安全ガイドラインを内包し、敵のプロンプトに対する堅牢性を強化するモデルの能力を強化する。複数のデータセットにわたる実験により、SGASAはモデルの安全性を大幅に改善し、適応性とスケーラブルな効率性を検証する。
論文参考訳（メタデータ） (2025-11-26T09:44:32Z)
Large Reasoning Models Learn Better Alignment from Flawed Thinking [56.08883934423522]
大規模推論モデル(LRM)は、最終的な答えを生成する前に構造化チェーン・オブ・シント(CoT)を生成することで「考える」。本稿では,Regressed Learning (RL) 手法であるRECAPを提案する。
論文参考訳（メタデータ） (2025-10-01T14:15:43Z)
AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文参考訳（メタデータ） (2025-09-29T04:27:23Z)
bi-GRPO: Bidirectional Optimization for Jailbreak Backdoor Injection on LLMs [33.470999703070866]
既存のジェイルブレイクのトリガーを埋め込むアプローチは、一般化の貧弱さ、ステルスネスの妥協、文脈的ユーザビリティの低下といった制限に悩まされている。ジェイルブレイクバックドア注入に適した新しいRLベースのフレームワークであるbi-GRPOを提案する。
論文参考訳（メタデータ） (2025-09-24T05:56:41Z)
SAFER: Advancing Safety Alignment via Efficient Ex-Ante Reasoning [51.78514648677898]
我々は,eFficient Ex-Ante Reasoningによる安全アライメントの枠組みであるSAFERを提案する。提案手法は,初期評価,ルール検証,経路校正などを通じて,構造化されたex-Ante推論をインスタンス化する。複数のオープンソース LLM の実験により,SAFER は有用性と応答効率を保ちながら安全性を著しく向上することが示された。
論文参考訳（メタデータ） (2025-04-03T16:07:38Z)
Improving LLM Safety Alignment with Dual-Objective Optimization [81.98466438000086]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文参考訳（メタデータ） (2025-03-05T18:01:05Z)
Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。 CPOは、与えられた対話の安全性に対するモデルの認識を高める。実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文参考訳（メタデータ） (2025-02-18T15:48:46Z)
Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文参考訳（メタデータ） (2024-12-20T21:00:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。