論文の概要: Cat-DPO: Category-Adaptive Safety Alignment
- arxiv url: http://arxiv.org/abs/2604.17299v2
- Date: Tue, 21 Apr 2026 06:17:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.917976
- Title: Cat-DPO: Category-Adaptive Safety Alignment
- Title(参考訳): Cat-DPO:カテゴリー適応型安全アライメント
- Authors: Tiankai Yang, Yi Nian, Xinyuan Li, Ruiyao Xu, Kaize Ding, Yue Zhao,
- Abstract要約: Cat-DPOは直接参照最適化アルゴリズムである。
Cat-DPOは、集合的有用性と無害性を改善し、カテゴリごとの安全性のばらつきとベスト・ツー・ワーストギャップを圧縮する。
- 参考スコア(独自算出の注目度): 29.744932593502792
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Aligning large language models with human preferences must balance two competing goals: responding helpfully to legitimate requests and reliably refusing harmful ones. Most preference-based safety alignment methods collapse safety into a single scalar that is applied uniformly to every preference pair. The result is a model that looks safe on average but stays relatively unsafe on a minority of harm categories. We cast safety alignment as a per-category constrained optimization problem and derive Cat-DPO, a direct-preference-optimization algorithm with a separate adaptive safety margin for each harm category. The margin tightens when the model still produces unsafe responses on a category and relaxes once the model catches up, so the training signal tracks each category's current difficulty rather than averaging under one global rate. Across two LLM backbones and six preference-learning baselines, Cat-DPO improves aggregate helpfulness and harmlessness and compresses per-category safety variance and the best-to-worst gap, offering a drop-in per-category refinement of direct preference safety alignment.
- Abstract(参考訳): 人間の好みで大きな言語モデルを調整するには、2つの競合する目標をバランスさせなければならない。
多くの選好ベースの安全アライメント手法は、安全を1つのスカラーに分解し、各選好ペアに一様に適用する。
その結果、平均的には安全に見えるが、少数の有害カテゴリーでは比較的安全ではないモデルになった。
そこで我々は,カテゴリーごとの制約付き最適化問題として安全性アライメントを導入し,それぞれに適応的安全マージンを持つ直接参照最適化アルゴリズムであるCat-DPOを導出する。
モデルがいまだにカテゴリ上で安全でない応答を生成し、モデルが追いつくと緩和するので、トレーニング信号は、各カテゴリの現在の困難を、1つのグローバルレートで平均化するのではなく追跡する。
2つのLCMバックボーンと6つの嗜好学習ベースラインの中で、Cat-DPOは集合的有用性と無害性を改善し、カテゴリごとの安全性のばらつきと最高のギャップを圧縮し、カテゴリごとの安全性アライメントをドロップインで改善する。
関連論文リスト
- Improving Safety Alignment via Balanced Direct Preference Optimization [36.066367724362614]
大規模言語モデル(LLM)の安全性向上のため,人間フィードバックからの強化学習(RLHF)が採用されている。
直接優先度最適化(DPO)は安全アライメントに広く用いられている。
本稿では,モデルのトレーニングデータの理解の観点から,オーバーフィッティング現象を再考する。
論文 参考訳(メタデータ) (2026-03-24T06:04:09Z) - When Safety Collides: Resolving Multi-Category Harmful Conflicts in Text-to-Image Diffusion via Adaptive Safety Guidance [79.1968671824977]
テキスト・ツー・イメージ(T2I)拡散モデルは高品質な画像を生成する上で大きな進歩を見せている。
本研究では,適応型安全誘導(CASG)を動的に識別・適用する学習自由フレームワークとして,適応型安全誘導(CASG)を提案する。
T2Iの安全性ベンチマークの実験では、CASGの最先端性能が実証され、既存の方法と比較して有害率が最大15.4%低下した。
論文 参考訳(メタデータ) (2026-02-24T13:20:31Z) - Rethinking Safety in LLM Fine-tuning: An Optimization Perspective [56.31306558218838]
我々は、本質的にトレードオフではなく、最適化の貧弱な選択が、しばしば安全上の問題を引き起こすことを示し、敵のプロンプトに対する有害な応答として測定する。
安全性能を保ったパラメータ空間における簡易指数移動平均(EMA)運動量法を提案する。
複数のデータセットにまたがるLlamaファミリーに関する実験は、安全性の問題が特別な介入なしに回避できることを実証している。
論文 参考訳(メタデータ) (2025-08-17T23:46:36Z) - SafeDPO: A Simple Approach to Direct Preference Optimization with Enhanced Safety [57.14003339251827]
我々は,政策学習の単一段階において,安全アライメント目標を直接最適化するSafeDPOという新しいアルゴリズムを導入する。
その結果、個別の報酬モデルとコストモデル、あるいは微調整中に言語モデルからサンプルを採取する必要がなくなる。
SafeDPOは,最先端の安全アライメントアルゴリズムと比較して,競争性能が向上することを示す。
論文 参考訳(メタデータ) (2025-05-26T14:50:01Z) - SafeMERGE: Preserving Safety Alignment in Fine-Tuned Large Language Models via Selective Layer-Wise Model Merging [30.820398160975504]
微調整された大型言語モデル(LLM)は安全性を損なう可能性があるため、LSMは有害または非倫理的なプロンプトに応答する。
本稿では,下流性能を維持しながら安全性を維持する軽量なポストファインニングフレームワークであるSafeMERGEを提案する。
以上の結果から,選択的層ワイドマージは微調整時の安全性の低下を効果的に防ぐことができることが示された。
論文 参考訳(メタデータ) (2025-03-21T15:44:09Z) - One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースの設定における2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。