論文の概要: Robust Preference Optimization via Dynamic Target Margins
- arxiv url: http://arxiv.org/abs/2506.03690v1
- Date: Wed, 04 Jun 2025 08:19:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.227237
- Title: Robust Preference Optimization via Dynamic Target Margins
- Title(参考訳): 動的ターゲットマージンによるロバスト選好最適化
- Authors: Jie Sun, Junkang Wu, Jiancan Wu, Zhibo Zhu, Xingyu Lu, Jun Zhou, Lintao Ma, Xiang Wang,
- Abstract要約: $gamma$-POは動的ターゲットマージン優先最適化アルゴリズムである。
これは、好みのペア間の報酬マージンに依存するDPOの変種と互換性がある。
$gamma$-POは、他のベースラインよりも平均4.4%改善されている。
- 参考スコア(独自算出の注目度): 16.998561969686286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The alignment of Large Language Models (LLMs) is crucial for ensuring their safety and reliability in practical applications. Direct Preference Optimization (DPO) has emerged as an efficient method that directly optimizes models using preference pairs, significantly reducing resource demands. However, the effectiveness of DPO heavily depends on the data quality, which is frequently compromised by noise. In this work, we propose $\gamma$-PO, a dynamic target margin preference optimization algorithm that adjust reward margins at the pairwise level. By introducing instance-specific margin calibration, $\gamma$-PO strategically prioritizes high-confidence pairs (those demonstrating higher reward margins) while suppressing potential noise from ambiguous pairs. Moreover, $\gamma$-PO is a plug-and-play method, compatible with variants of DPO that rely on reward margin between preference pairs. Across benchmarks such as AlpacaEval2 and Arena-Hard, $\gamma$-PO achieves an average 4.4\% improvement over other baselines, setting new benchmarks for state-of-the-art performance. Additionally, $\gamma$-PO requires minimal code changes and has a negligible impact on training efficiency, making it a robust solution for enhancing LLMs alignment. Our codes are available at \href{https://github.com/sunjie279/gammaPO}{https://github.com/sunjie279/gammaPO}.
- Abstract(参考訳): LLM(Large Language Models)のアライメントは、実用アプリケーションにおける安全性と信頼性を確保するために不可欠である。
DPO(Direct Preference Optimization)は、好みのペアを使ってモデルを直接最適化し、リソース要求を大幅に削減する効率的な手法として登場した。
しかし、DPOの有効性はデータ品質に大きく依存しており、ノイズによってしばしば損なわれる。
そこで本研究では,報酬マージンをペアレベルで調整する動的目標マージン選択最適化アルゴリズムである$\gamma$-POを提案する。
インスタンス固有のマージンキャリブレーションを導入することで、$\gamma$-POは高信頼対(より高いリターンマージンを示すもの)を戦略的に優先順位付けし、曖昧なペアからの潜在的なノイズを抑える。
さらに$\gamma$-POはプラグアンドプレイ方式であり、好みのペア間の報酬マージンに依存するDPOの変種と互換性がある。
AlpacaEval2やArena-Hardのようなベンチマークでは、$\gamma$-POは他のベースラインよりも平均4.4\%改善され、最先端のパフォーマンスのための新しいベンチマークが設定される。
さらに$\gamma$-POは、最小限のコード変更を必要とし、トレーニング効率に無視できる影響を与え、LCMのアライメントを強化するための堅牢なソリューションである。
我々のコードは \href{https://github.com/sunjie279/gammaPO}{https://github.com/sunjie279/gammaPO} で入手できる。
関連論文リスト
- Accelerating RL for LLM Reasoning with Optimal Advantage Regression [52.0792918455501]
本稿では,最適優位関数を直接近似する新しい2段階ポリシー最適化フレームワークを提案する。
A$*-POは、幅広い数学的推論ベンチマークで競合性能を達成する。
PPO、GRPO、REBELと比較して、トレーニング時間を最大2$times$、ピークメモリ使用率を30%以上削減する。
論文 参考訳(メタデータ) (2025-05-27T03:58:50Z) - $α$-DPO: Adaptive Reward Margin is What Direct Preference Optimization Needs [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Provably Robust DPO: Aligning Language Models with Noisy Feedback [10.523790076060171]
ランダムな選好フリップが存在する場合に、ポリシー最適化のための一般的なフレームワークを導入する。
本研究では,ノイズが平均値に与える影響を非バイアス化する新しい損失関数を設計し,その損失を騒音に頑健に抑えることで訓練を行う。
IMDb 感情生成と Anthropic's useful-harmless データセットを用いた実験により,rDPO はバニラ DPO と比較して好みラベルのノイズに対して頑健であることが示された。
論文 参考訳(メタデータ) (2024-03-01T09:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。