論文の概要: Lightweight Robust Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2510.23590v1
- Date: Mon, 27 Oct 2025 17:55:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 19:54:32.628819
- Title: Lightweight Robust Direct Preference Optimization
- Title(参考訳): 軽量ロバスト直接選好最適化
- Authors: Cheol Woo Kim, Shresth Verma, Mauricio Tec, Milind Tambe,
- Abstract要約: DPO-PRO (DPO with Preference Robustness) はDPOに基づく頑健な微調整アルゴリズムである。
従来のDROベースの変種とは異なり、DPO-PROは好みの不確実性にのみ焦点をあて、不必要な保守性を避け、無視可能な計算オーバーヘッドを発生させる。
- 参考スコア(独自算出の注目度): 26.99327564250612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) has become a popular method for fine-tuning large language models (LLMs) due to its stability and simplicity. However, it is also known to be sensitive to noise in the data and prone to overfitting. Recent works have proposed using distributionally robust optimization (DRO) to address potential noise and distributional shift in the data. However, these methods often suffer from excessive conservatism and high computational cost. We propose DPO-PRO (DPO with Preference Robustness), a robust fine-tuning algorithm based on DPO which accounts for uncertainty in the preference distribution through a lightweight DRO formulation. Unlike prior DRO-based variants, DPO-PRO focuses solely on uncertainty in preferences, avoiding unnecessary conservatism and incurring negligible computational overhead. We further show that DPO-PRO is equivalent to a regularized DPO objective that penalizes model overconfidence under weak preference signals. We evaluate DPO-PRO on standard alignment benchmarks and a real-world public health task. Experimental results show that our method consistently improves robustness to noisy preference signals compared to existing DPO variants.
- Abstract(参考訳): 直接優先度最適化(DPO)は、安定性と単純さから、大規模言語モデル(LLM)を微調整する一般的な手法となっている。
しかし、データのノイズに敏感であり、過度にフィットする傾向があることも知られている。
近年, 分散ロバスト最適化 (DRO) を用いて, 潜在的なノイズや分布シフトに対処する手法が提案されている。
しかし、これらの手法はしばしば過度の保守主義と高い計算コストに悩まされる。
DPO-PRO (DPO with Preference Robustness) は、DPOに基づく頑健な微調整アルゴリズムであり、軽量なDRO定式化による選好分布の不確かさを考慮に入れている。
従来のDROベースの変種とは異なり、DPO-PROは好みの不確実性にのみ焦点をあて、不必要な保守性を避け、無視可能な計算オーバーヘッドを発生させる。
さらに、DPO-PROは、弱い選好信号の下でモデル過信を罰する正規化DPO目標と等価であることを示す。
我々は、標準アライメントベンチマークと実際の公衆衛生タスクに基づいてDPO-PROを評価した。
実験結果から,提案手法は既存のDPO変種と比較して,ノイズの多い選好信号に対するロバスト性を常に改善することが示された。
関連論文リスト
- Preference Robustness for DPO with Applications to Public Health [26.99327564250612]
直接選好最適化(DPO)に基づく頑健な微調整アルゴリズムDPO-PROを提案する。
DPO-PROを,非営利組織ARMMANが運営する実世界の母体保健プログラムで評価した。
論文 参考訳(メタデータ) (2025-09-02T18:10:32Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Towards Robust Alignment of Language Models: Distributionally Robustifying Direct Preference Optimization [45.6430987775264]
本研究は、DPO(Direct Preference Optimization)のためのトレーニングデータセットにおけるノイズの課題に対処する。
ノイズを低品質なデータポイントを含むポイントワイズノイズと、誤ったデータペアアソシエーションを含むペアワイズノイズに分類する。
本稿では、最悪の場合のペアワイズシナリオに対して最適化することで、ペアワイズロバストネスを統合した分散ロバスト化DPOを提案する。
論文 参考訳(メタデータ) (2024-07-10T17:48:25Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。