Fugu-MT 論文翻訳(概要): Curry-DPO: Enhancing Alignment using Curriculum Learning & Ranked Preferences

論文の概要: Curry-DPO: Enhancing Alignment using Curriculum Learning & Ranked Preferences

arxiv url: http://arxiv.org/abs/2403.07230v2
Date: Fri, 08 Nov 2024 08:55:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:31.317166
Title: Curry-DPO: Enhancing Alignment using Curriculum Learning & Ranked Preferences
Title（参考訳）: Curry-DPO:カリキュラム学習とランク付けによるアライメントの強化
Authors: Pulkit Pattnaik, Rishabh Maheshwary, Kelechi Ogueji, Vikas Yadav, Sathwik Tejaswi Madhusudhan,
Abstract要約: Curry-DPOは一貫してMTbench、Vicuna、WizardLM、UltraFeedbackテストセットのパフォーマンス向上を示している。また、Curry-DPOはVicuna、WizardLM、UltraFeedbackテストデータセット上で最高に調整された勝利率を達成する。
参考スコア（独自算出の注目度）: 8.774158083002831
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Direct Preference Optimization (DPO) is an effective technique that leverages pairwise preference data (usually one chosen and rejected response pair per user prompt) to align LLMs to human preferences. In practice, multiple responses can exist for a given prompt with varying quality relative to each other. With availability of such quality ratings for multiple responses, we propose utilizing these responses to create multiple preference pairs for a given prompt. Our work focuses on systematically using the constructed multiple preference pair in DPO training via curriculum learning methodology. In particular, we order these multiple pairs of preference data from easy to hard (emulating curriculum training) according to various criteria. We show detailed comparisons of our proposed approach to the standard single-pair DPO setting. Our method, which we call Curry-DPO consistently shows increased performance gains on MTbench, Vicuna, WizardLM, and the UltraFeedback test set, highlighting its effectiveness. More specifically, Curry-DPO achieves a score of 7.43 on MT-bench with Zephy-7B model outperforming majority of existing LLMs with similar parameter size. Curry-DPO also achieves the highest adjusted win rates on Vicuna, WizardLM, and UltraFeedback test datasets (90.7%, 87.1%, and 87.9% respectively) in our experiments, with notable gains of upto 7.5% when compared to standard DPO technique. We release the preference pairs used in alignment at: https://huggingface.co/datasets/ServiceNow-AI/Curriculum_DPO_preferences
Abstract（参考訳）: 直接選好最適化(DPO)は、LLMを人間の選好に合わせるために、ペアワイズ選好データ(通常、ユーザプロンプト毎に1つの選択と拒否された応答ペア)を利用する効果的な手法である。実際には、互いに異なる品質の与えられたプロンプトに対して複数の応答が存在する。複数の応答に対する品質評価が利用可能であるので、これらの応答を利用して、与えられたプロンプトに対して複数の選好ペアを作成することを提案する。本研究は,カリキュラム学習手法を用いたDPO学習において,構築された複数選好ペアを体系的に活用することに焦点を当てる。特に、これらの複数ペアの選好データを、様々な基準に従って、簡単からハード(エミュレートカリキュラムのトレーニング)に注文する。提案手法と標準単対DPO設定との比較を行った。 MTbench, Vicuna, WizardLM, およびUltraFeedback テストセットの性能向上を示す。より具体的には、Curry-DPO は MT-bench で 7.43 のスコアを獲得し、Zephy-7B モデルは、同様のパラメータサイズを持つ既存の LLM の大部分を上回ります。また、Curry-DPOはVicuna、WizardLM、UltraFeedbackテストデータセット(それぞれ90.7%、87.1%、87.9%)において、通常のDPO技術と比較して最大7.5%の上昇率を達成した。 https://huggingface.co/datasets/ServiceNow-AI/Curriculum_DPO_preferences

関連論文リスト

DCRM: A Heuristic to Measure Response Pair Quality in Preference Optimization [13.366219858094297]
本研究は,2つの軸に沿って分類された3種類の嗜好データセットについて検討する。トレーニングセットの高次距離校正リワードマージンと学習結果の総合的相関性を確立する。提案手法は,AlpacaEval,MT-Bench,Arena-Hardなどのモデルの性能を向上させるためのトレーニングデータセットを生成する。
論文参考訳（メタデータ） (2025-06-17T03:37:41Z)
FocalPO: Enhancing Preference Optimizing by Focusing on Correct Preference Rankings [40.605411087380226]
我々は、モデルがすでに正しくランク付けできるようなペアの理解を高めることを優先するDPO変種であるFocalPOを紹介した。視覚タスクで使用されるFocal LossにインスパイアされたFocalPOは、動的にDPO損失をスケールするために変調係数を追加することでこれを達成している。
論文参考訳（メタデータ） (2025-01-11T21:41:27Z)
Multi-Preference Optimization: Generalizing DPO via Set-Level Contrasts [17.243429150450886]
応答集合全体の最適化のために,$textbfMulti-Preference Optimization (MPO)を提案する。 MPOは偏差に基づく重み付けを採用しており、平均的な報酬から最も逸脱する外れ値の応答を強調している。理論的には、MPOはクエリ毎のレスポンス数に対して$mathcalOleft(frac1sqrtnright)$でアライメントバイアスを低減する。
論文参考訳（メタデータ） (2024-12-05T21:50:22Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。 TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文参考訳（メタデータ） (2024-10-06T04:03:00Z)
Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。 Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文参考訳（メタデータ） (2024-06-26T17:43:06Z)
Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence [31.03305638930844]
DPO(Direct Preference Optimization)は、大規模言語モデルと人間の好みとの直接的かつ堅牢なアライメントのための顕著なアルゴリズムとして登場した。有望な有効性にもかかわらず、DPOは顕著な欠点に直面している。また,この問題はDPOのアルゴリズム長依存性にも起因していると考えられる。
論文参考訳（メタデータ） (2024-06-16T14:24:30Z)
D2PO: Discriminator-Guided DPO with Response Evaluation Models [63.71853401569461]
学習を通して嗜好が収集されるオンライン環境において,識別器誘導型DPOであるD2POを提案する。金の選好を収集する際、これらは政策の訓練だけでなく、銀ラベルによる政策訓練のためのさらに総合的なデータに対する差別的な反応評価モデルを訓練するために利用します。 DPOで政策を訓練し、従来のPPOを上回り、政策モデルから分離した差別者を維持することの恩恵を受けるのが最も効果的である。
論文参考訳（メタデータ） (2024-05-02T17:44:41Z)
Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文参考訳（メタデータ） (2024-04-18T08:49:38Z)
Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文参考訳（メタデータ） (2024-03-31T02:05:40Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
LiPO: Listwise Preference Optimization through Learning-to-Rank [62.02782819559389]
ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。 LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
論文参考訳（メタデータ） (2024-02-02T20:08:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。