論文の概要: InCo-DPO: Balancing Distribution Shift and Data Quality for Enhanced Preference Optimization
- arxiv url: http://arxiv.org/abs/2503.15880v1
- Date: Thu, 20 Mar 2025 06:05:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:35:44.693053
- Title: InCo-DPO: Balancing Distribution Shift and Data Quality for Enhanced Preference Optimization
- Title(参考訳): InCo-DPO: 優先度最適化のための分散シフトとデータ品質のバランス
- Authors: Yunan Wang, Jijie Li, Bo-Wen Zhang, Liangdong Wang, Guang Liu,
- Abstract要約: InCo-DPOを提案する。これは、オン・ポリティクスとオフ・ポリティクス・データを統合することにより、選好データを効率的に合成する方法である。
InCo-DPOは、オフポリティデータにおける分散シフトの制限と、オンポリティデータの品質制約を克服する。
- 参考スコア(独自算出の注目度): 4.899191406905833
- License:
- Abstract: Direct Preference Optimization (DPO) optimizes language models to align with human preferences. Utilizing on-policy samples, generated directly by the policy model, typically results in better performance due to its distribution consistency with the model compared to off-policy samples. This paper identifies the quality of candidate preference samples as another critical factor. While the quality of on-policy data is inherently constrained by the capabilities of the policy model, off-policy data, which can be derived from diverse sources, offers greater potential for quality despite experiencing distribution shifts. However, current research mostly relies on on-policy data and neglects the value of off-policy data in terms of data quality, due to the challenge posed by distribution shift. In this paper, we propose InCo-DPO, an efficient method for synthesizing preference data by integrating on-policy and off-policy data, allowing dynamic adjustments to balance distribution shifts and data quality, thus finding an optimal trade-off. Consequently, InCo-DPO overcomes the limitations of distribution shifts in off-policy data and the quality constraints of on-policy data. We evaluated InCo-DPO with the Alpaca-Eval 2.0 and Arena-Hard benchmarks. Experimental results demonstrate that our approach not only outperforms both on-policy and off-policy data but also achieves a state-of-the-art win rate of 60.8 on Arena-Hard with the vanilla DPO using Gemma-2 model.
- Abstract(参考訳): 直接選好最適化(DPO)は、人間の選好に合わせて言語モデルを最適化する。
政策モデルが直接生成するオン・ポリティクス・サンプルを利用する場合、通常、オフ・ポリティクス・サンプルと比較して、そのモデルとの分布整合性によりパフォーマンスが向上する。
本稿では、候補選好サンプルの品質をもう一つの重要な要因として挙げる。
オンラインデータの品質は本質的にポリシーモデルの能力によって制約されるが、さまざまなソースから得られるオフ・ポリティクスデータは、分散シフトを経験しながらも、品質の面で大きな可能性を秘めている。
しかし、現在の研究は、主にオン政治データに依存しており、分散シフトによる課題のため、データ品質の観点からは、オフ政治データの価値を無視している。
InCo-DPOは、オン・ポリティィとオフ・ポリティィのデータを統合して選好データを効率的に合成する手法であり、動的調整により分散シフトとデータ品質のバランスを保ち、最適なトレードオフを見つけることができる。
その結果、InCo-DPOは、オフ・ポリティクスデータにおける分散シフトの制限とオン・ポリティクスデータの品質制約を克服する。
InCo-DPOをAlpaca-Eval 2.0とArena-Hardベンチマークで評価した。
実験結果から,本手法は政治データと政治外データの両方に優れるだけでなく,Gemma-2モデルを用いたバニラDPOを用いてアリーナ・ハードの60.8の勝利率も達成できることがわかった。
関連論文リスト
- Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - WPO: Enhancing RLHF with Weighted Preference Optimization [40.07940023654452]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の価値をより緊密に整合させる、有望なソリューションである。
オフ・ポリティクスの選好最適化は、データ収集に使用されるポリシーとターゲットポリシーの間の分散的なギャップに悩まされることが多く、最適化の準最適化につながる。
本稿では,この問題を解決するための新たな戦略を提案する。
論文 参考訳(メタデータ) (2024-06-17T17:59:13Z) - Stratified Prediction-Powered Inference for Hybrid Language Model Evaluation [62.2436697657307]
予測駆動推論(英: Prediction-powered Inference, PPI)は、人間ラベル付き限られたデータに基づいて統計的推定を改善する手法である。
我々はStratPPI(Stratified Prediction-Powered Inference)という手法を提案する。
単純なデータ階層化戦略を用いることで,基礎的なPPI推定精度を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-06-06T17:37:39Z) - D2PO: Discriminator-Guided DPO with Response Evaluation Models [63.71853401569461]
学習を通して嗜好が収集されるオンライン環境において,識別器誘導型DPOであるD2POを提案する。
金の選好を収集する際、これらは政策の訓練だけでなく、銀ラベルによる政策訓練のためのさらに総合的なデータに対する差別的な反応評価モデルを訓練するために利用します。
DPOで政策を訓練し、従来のPPOを上回り、政策モデルから分離した差別者を維持することの恩恵を受けるのが最も効果的である。
論文 参考訳(メタデータ) (2024-05-02T17:44:41Z) - Filtered Direct Preference Optimization [7.060398061192042]
人間からのフィードバックからの強化学習(RLHF)は、言語モデルと人間の嗜好の整合において重要な役割を果たす。
本稿では、直接選好最適化(DPO)に着目して、選好データセットにおけるテキスト品質の問題に対処する。
フィルタされた直接選好最適化(fDPO)と呼ばれるDPOの拡張を提案する。
論文 参考訳(メタデータ) (2024-04-22T03:05:19Z) - Human Alignment of Large Language Models through Online Preference
Optimisation [50.52545798589968]
最近のアライメント手法であるアイデンティティポリシー最適化(IPO)とNash Mirror Descent(Nash-MD)の等価性を示す。
この等価性は、オンラインバージョンのIPOを考えると証明できる。これは、両方の世代がオンラインポリシーによってサンプルされ、訓練された選好モデルによって注釈付けされる時である。
本稿では,一般的なNash-MDアルゴリズムと同様に,オンラインポリシと参照ポリシの混在したデータを生成するIPO-MDアルゴリズムを紹介する。
論文 参考訳(メタデータ) (2024-03-13T15:47:26Z) - Policy Optimization in RLHF: The Impact of Out-of-preference Data [17.126977660436225]
本稿では、DPO(Direct Preference Optimization)とReward-Model-Based Policy Optimization(RMB-PO)の2つの一般的なアライメント手法について検討する。
RMB-PO+とも呼ばれるRMB-POの変種も検討されている。
特に、DPOと比較して、RMB-POはポリシー生成データを使用し、RMB-PO+は新たな好みのないデータを活用する。
論文 参考訳(メタデータ) (2023-12-17T02:14:15Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。
実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。
より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。
提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文 参考訳(メタデータ) (2022-03-16T21:17:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。