論文の概要: wDPO: Winsorized Direct Preference Optimization for Robust LLM Alignment
- arxiv url: http://arxiv.org/abs/2603.07211v1
- Date: Sat, 07 Mar 2026 13:30:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.091584
- Title: wDPO: Winsorized Direct Preference Optimization for Robust LLM Alignment
- Title(参考訳): wDPO:ロバストLLMアライメントのWinsorized Direct Preference Optimization
- Authors: Jilong Liu, Yonghui Yang, Pengyang Shao, Haokai Ma, Wei Qin, Richang Hong,
- Abstract要約: 実際には、好みのデータはしばしばうるさい。
既存のDPOの頑健な派生型は、主に一様の客観的な修正や大域的な再重み付けに依存している。
目的の介入によって異なるノイズタイプに対処することで、ロバストな選好アライメントの利点が示される。
- 参考スコア(独自算出の注目度): 48.487557157323664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct Preference Optimization (DPO) aligns large language models by optimizing pairwise preferences and has shown remarkable effectiveness as a simple and scalable alternative to RLHF. However, in practice, preference data are often noisy. Existing robust variants of DPO mainly rely on uniform objective modifications or global reweighting. While partially effective, these methods treat noisy samples as a homogeneous source of uncertainty and fail to distinguish between different noise types, leading to sub-optimal alignment robustness. In this work, we show that robust preference alignment benefits from addressing different noise types with targeted interventions rather than uniform regularization. We propose winsorized Direct Preference Optimization~(wDPO), a robust LLM alignment approach with hierarchical winsorization. Specifically, wDPO adopts a reward-free hierarchical intervention strategy that leverages only signals already available during DPO training. It first uses the implicit margin from DPO log-ratio to identify heterogeneous noise patterns without relying on external reward models. For hard noise, wDPO performs a data-level intervention by sparsely correcting strongly inconsistent preference pairs. For ambiguous comparisons, it applies a gradient-level intervention through soft winsorization, capping extreme losses in the high-loss tail to prevent weakly informative samples from dominating gradient updates. Extensive experiments on PKU-SafeRLHF and multiple external safety benchmarks demonstrate that wDPO consistently improves preference alignment quality and robustness over vanilla DPO and strong DPO-family baselines, with particularly pronounced gains under controlled label-flip noise.
- Abstract(参考訳): 直接選好最適化(DPO)は、ペアの選好を最適化することで大きな言語モデルを整列させ、RLHFの単純でスケーラブルな代替品として顕著な効果を示した。
しかし、実際には、好みのデータはしばしばうるさい。
既存のDPOの頑健な派生型は、主に一様の客観的な修正や大域的な再重み付けに依存している。
これらの手法は部分的に有効であるが、ノイズサンプルを不確実性の均一な源として扱い、異なるノイズタイプを区別できないため、準最適アライメントロバスト性をもたらす。
本研究は,一様正規化ではなく,目的とした介入によって異なるノイズタイプに対処することによる,ロバストな選好アライメントの利点を示す。
我々は、階層的なウィンソライズを伴う頑健なLLMアライメントアプローチであるWinsorized Direct Preference Optimization~(wDPO)を提案する。
具体的には、wDPOは報酬のない階層的介入戦略を採用し、DPOトレーニング中に既に利用可能な信号のみを活用する。
まず、DPOの対数比の暗黙のマージンを使用して、外部の報酬モデルに頼ることなく、異種ノイズパターンを識別する。
ハードノイズに対して、wDPOは、強い矛盾した選好ペアをわずかに補正することで、データレベルの介入を行う。
曖昧な比較のために、軟弱なウィンゾリゼーションによる勾配レベルの介入を適用し、弱情報的なサンプルが勾配更新を支配できないように、高損失の尾部を極端に損なう。
PKU-SafeRLHFと複数の外部安全ベンチマークの広範囲な実験により、wDPOはバニラDPOと強力なDPOファミリーベースラインよりも、常に好みのアライメント品質とロバスト性を向上し、特に制御されたラベルフリップノイズ下での利得が顕著であることが示された。
関連論文リスト
- Lightweight Robust Direct Preference Optimization [26.99327564250612]
DPO-PRO (DPO with Preference Robustness) はDPOに基づく頑健な微調整アルゴリズムである。
従来のDROベースの変種とは異なり、DPO-PROは好みの不確実性にのみ焦点をあて、不必要な保守性を避け、無視可能な計算オーバーヘッドを発生させる。
論文 参考訳(メタデータ) (2025-10-27T17:55:06Z) - Margin Adaptive DPO: Leveraging Reward Model for Granular Control in Preference Optimization [0.0]
Margin-Adaptive Direct Preference Optimizationは、安定的で、データ保存、インスタンスレベルのソリューションを提供する。
我々は、MADPOが優れた最適化環境を持っていることを証明し、包括的な理論的解析を行う。
ハイクオリティデータでは+33.3%、低クオリティデータでは+10.5%というパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-10-06T20:09:37Z) - Inducing Robustness in a 2 Dimensional Direct Preference Optimization Paradigm [16.66633426354087]
DPO(Direct PreferenceOptimization)は、大規模言語モデルと人間の嗜好を整合させる強力な手法として登場した。
オープンソースの選好データセットを用いたDPOの性能について検討する。
2D-DPOアルゴリズムにセグメントレベルスコアノイズロバスト性を組み込む手法を提案する。
論文 参考訳(メタデータ) (2025-05-03T05:59:13Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Towards Robust Alignment of Language Models: Distributionally Robustifying Direct Preference Optimization [45.6430987775264]
本研究は、DPO(Direct Preference Optimization)のためのトレーニングデータセットにおけるノイズの課題に対処する。
ノイズを低品質なデータポイントを含むポイントワイズノイズと、誤ったデータペアアソシエーションを含むペアワイズノイズに分類する。
本稿では、最悪の場合のペアワイズシナリオに対して最適化することで、ペアワイズロバストネスを統合した分散ロバスト化DPOを提案する。
論文 参考訳(メタデータ) (2024-07-10T17:48:25Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - ROPO: Robust Preference Optimization for Large Language Models [59.10763211091664]
外部モデルの助けを借りずにノイズ耐性とノイズサンプルのフィルタリングを統合する反復アライメント手法を提案する。
Mistral-7BとLlama-2-7Bで広く使われている3つのデータセットの実験では、ROPOが既存の嗜好アライメント法を大幅に上回っていることが示されている。
論文 参考訳(メタデータ) (2024-04-05T13:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。