論文の概要: Curry-DPO: Enhancing Alignment using Curriculum Learning & Ranked Preferences
- arxiv url: http://arxiv.org/abs/2403.07230v2
- Date: Fri, 08 Nov 2024 08:55:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:53:06.225910
- Title: Curry-DPO: Enhancing Alignment using Curriculum Learning & Ranked Preferences
- Title(参考訳): Curry-DPO:カリキュラム学習とランク付けによるアライメントの強化
- Authors: Pulkit Pattnaik, Rishabh Maheshwary, Kelechi Ogueji, Vikas Yadav, Sathwik Tejaswi Madhusudhan,
- Abstract要約: Curry-DPOは一貫してMTbench、Vicuna、WizardLM、UltraFeedbackテストセットのパフォーマンス向上を示している。
また、Curry-DPOはVicuna、WizardLM、UltraFeedbackテストデータセット上で最高に調整された勝利率を達成する。
- 参考スコア(独自算出の注目度): 8.774158083002831
- License:
- Abstract: Direct Preference Optimization (DPO) is an effective technique that leverages pairwise preference data (usually one chosen and rejected response pair per user prompt) to align LLMs to human preferences. In practice, multiple responses can exist for a given prompt with varying quality relative to each other. With availability of such quality ratings for multiple responses, we propose utilizing these responses to create multiple preference pairs for a given prompt. Our work focuses on systematically using the constructed multiple preference pair in DPO training via curriculum learning methodology. In particular, we order these multiple pairs of preference data from easy to hard (emulating curriculum training) according to various criteria. We show detailed comparisons of our proposed approach to the standard single-pair DPO setting. Our method, which we call Curry-DPO consistently shows increased performance gains on MTbench, Vicuna, WizardLM, and the UltraFeedback test set, highlighting its effectiveness. More specifically, Curry-DPO achieves a score of 7.43 on MT-bench with Zephy-7B model outperforming majority of existing LLMs with similar parameter size. Curry-DPO also achieves the highest adjusted win rates on Vicuna, WizardLM, and UltraFeedback test datasets (90.7%, 87.1%, and 87.9% respectively) in our experiments, with notable gains of upto 7.5% when compared to standard DPO technique. We release the preference pairs used in alignment at: https://huggingface.co/datasets/ServiceNow-AI/Curriculum_DPO_preferences
- Abstract(参考訳): 直接選好最適化(DPO)は、LLMを人間の選好に合わせるために、ペアワイズ選好データ(通常、ユーザプロンプト毎に1つの選択と拒否された応答ペア)を利用する効果的な手法である。
実際には、互いに異なる品質の与えられたプロンプトに対して複数の応答が存在する。
複数の応答に対する品質評価が利用可能であるので、これらの応答を利用して、与えられたプロンプトに対して複数の選好ペアを作成することを提案する。
本研究は,カリキュラム学習手法を用いたDPO学習において,構築された複数選好ペアを体系的に活用することに焦点を当てる。
特に、これらの複数ペアの選好データを、様々な基準に従って、簡単からハード(エミュレートカリキュラムのトレーニング)に注文する。
提案手法と標準単対DPO設定との比較を行った。
MTbench, Vicuna, WizardLM, およびUltraFeedback テストセットの性能向上を示す。
より具体的には、Curry-DPO は MT-bench で 7.43 のスコアを獲得し、Zephy-7B モデルは、同様のパラメータサイズを持つ既存の LLM の大部分を上回ります。
また、Curry-DPOはVicuna、WizardLM、UltraFeedbackテストデータセット(それぞれ90.7%、87.1%、87.9%)において、通常のDPO技術と比較して最大7.5%の上昇率を達成した。
https://huggingface.co/datasets/ServiceNow-AI/Curriculum_DPO_preferences
関連論文リスト
- Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [63.32585910975191]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。
そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文 参考訳(メタデータ) (2024-10-10T16:01:51Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence [31.03305638930844]
DPO(Direct Preference Optimization)は、大規模言語モデルと人間の好みとの直接的かつ堅牢なアライメントのための顕著なアルゴリズムとして登場した。
有望な有効性にもかかわらず、DPOは顕著な欠点に直面している。
また,この問題はDPOのアルゴリズム長依存性にも起因していると考えられる。
論文 参考訳(メタデータ) (2024-06-16T14:24:30Z) - D2PO: Discriminator-Guided DPO with Response Evaluation Models [63.71853401569461]
学習を通して嗜好が収集されるオンライン環境において,識別器誘導型DPOであるD2POを提案する。
金の選好を収集する際、これらは政策の訓練だけでなく、銀ラベルによる政策訓練のためのさらに総合的なデータに対する差別的な反応評価モデルを訓練するために利用します。
DPOで政策を訓練し、従来のPPOを上回り、政策モデルから分離した差別者を維持することの恩恵を受けるのが最も効果的である。
論文 参考訳(メタデータ) (2024-05-02T17:44:41Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - LiPO: Listwise Preference Optimization through Learning-to-Rank [62.02782819559389]
ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。
LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
論文 参考訳(メタデータ) (2024-02-02T20:08:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。