論文の概要: Intelligently Weighting Multiple Reference Models for Direct Preference Optimization of LLMs
- arxiv url: http://arxiv.org/abs/2512.10040v1
- Date: Wed, 10 Dec 2025 19:45:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.034115
- Title: Intelligently Weighting Multiple Reference Models for Direct Preference Optimization of LLMs
- Title(参考訳): LLMの直接選好最適化のための多重参照モデルの知的重み付け
- Authors: Skyler Wu, Aymen Echarghaoui,
- Abstract要約: 直接選好最適化(DPO)に基づくMRPO(Multiple-Reference Preference Optimization)の構築
基準重みを設定する現在の方法は、アドホックで統計的に不健全であり、信頼性の低い性能をもたらす。
2つのオフライン手法はホールドアウト検証信号を利用しており、もう1つはスライディングウインドウ推定器を使ってオーバーフィッティングを減らすオンライン手法である。
政策モデルとしてのQwen2.5-0.5Bと、Llama, Mistral, Qwen, Yi, Phi の7つの基準モデル(それぞれ0.5B-14B)を用いた実験により、我々の戦略の4つ全てが、電流よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 2.0411082897313984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning is integral for aligning large language models (LLMs) with human preferences. Multiple-Reference Preference Optimization (MRPO) builds on Direct Preference Optimization (DPO) by fine-tuning LLMs on preference datasets while regularizing the policy towards a mixture of reference models to leverage their collective desirable properties. However, current methods for setting the reference weights are ad-hoc and statistically unsound, leading to unreliable performance. To address this, we introduce four new weighting strategies: two offline methods that leverage held-out validation signal; one online method that uses a sliding-window estimator to reduce overfitting; and an online method that treats reference weighting as a $K$-armed bandit via Thompson Sampling. Experiments using Qwen2.5-0.5B as the policy model and seven reference models from the Llama, Mistral, Qwen, Yi, and Phi families (0.5B-14B each) show that all 4 of our strategies outperform the current MRPO weighting methods on UltraFeedback and SafeRLHF in preference accuracy. More thought-provokingly, however, we find that single-reference DPO, using any of 6 out of 7 references, consistently outperforms all tested multiple-reference approaches -- calling into question the practical appeal of multiple-reference approaches.
- Abstract(参考訳): ファインチューニングは、大きな言語モデル(LLM)と人間の嗜好の整合に不可欠である。
MRPO(Multiple-Reference Preference Optimization)は、LLMを好みデータセットに微調整し、参照モデルの混合に対するポリシーを規則化し、それらの集合的望ましい特性を活用することで、直接参照最適化(DPO)を構築する。
しかし、現在の基準重み設定法はアドホックで統計的に不正確であり、信頼性の低い性能をもたらす。
そこで本研究では, ホールドアウト検証信号を利用する2つのオフライン手法, オーバーフィッティングを低減するためにスライディングウインドウ推定器を使用する1つのオンライン手法, およびトンプソン・サンプリングを介して, 参照重み付けを$K$の武器付きバンディットとして扱うオンライン手法を紹介する。
政策モデルとしてQwen2.5-0.5Bを用い,Llama,Mistral,Qwen,Yi,Phiの7つの基準モデル(0.5B-14B)を用いて実験した結果,UltraFeedbackおよびSafeRLHFのMRPO重み付け法では,4つの戦略のすべてに勝っていることがわかった。
しかし、もっと思い起こさせるのは、単一の参照DPOは、7つの参照のうち6つのうちどれかを使って、テスト対象の複数の参照アプローチを一貫して上回っているということです。
関連論文リスト
- InSPO: Unlocking Intrinsic Self-Reflection for LLM Preference Optimization [18.988527161000203]
Intrinsic Self-reflective Preference Optimization (InSPO)を提案する。
InSPOは、アーキテクチャの変更や推論のオーバーヘッドなしに、プラグインとプレイの強化として機能する。
論文 参考訳(メタデータ) (2025-12-29T00:59:23Z) - Bootstrapping LLMs via Preference-Based Policy Optimization [11.796630967998544]
大きな言語モデル(LLM)を優先ベースのポリシー最適化を通じてブートストラップすることで、モデルの振る舞いと人間の好みを整合させる、有望な方向を提供する。
本稿では,学習過程を主方針と報奨モデルの間のmin-maxゲームとして定式化する,新たな嗜好ベースの政策最適化フレームワークを提案する。
我々のアプローチは、既存の最先端の選好最適化技術より一貫して優れている。
論文 参考訳(メタデータ) (2025-11-17T01:41:14Z) - Reverse Preference Optimization for Complex Instruction Following [61.39734201711077]
本稿では,Reverse Preference Optimization (RPO) という,シンプルで効果的な手法を提案する。
選択された応答が完璧であることを保証するために、命令内の制約を動的に反転させることで、優先ペアのノイズを緩和する。
RPOはモデルサイズで効果的にスケールし、70B RPOモデルはGPT-4oを超える。
論文 参考訳(メタデータ) (2025-05-28T09:44:27Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [90.15024547673785]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - WPO: Enhancing RLHF with Weighted Preference Optimization [40.07940023654452]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の価値をより緊密に整合させる、有望なソリューションである。
オフ・ポリティクスの選好最適化は、データ収集に使用されるポリシーとターゲットポリシーの間の分散的なギャップに悩まされることが多く、最適化の準最適化につながる。
本稿では,この問題を解決するための新たな戦略を提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:13Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。