Fugu-MT 論文翻訳(概要): Curry-DPO: Enhancing Alignment using Curriculum Learning & Ranked Preferences

論文の概要: Curry-DPO: Enhancing Alignment using Curriculum Learning & Ranked Preferences

arxiv url: http://arxiv.org/abs/2403.07230v1
Date: Tue, 12 Mar 2024 00:58:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 23:10:37.271000
Title: Curry-DPO: Enhancing Alignment using Curriculum Learning & Ranked Preferences
Title（参考訳）: Curry-DPO:カリキュラム学習とランク付けによるアライメント向上
Authors: Pulkit Pattnaik and Rishabh Maheshwary and Kelechi Ogueji and Vikas Yadav and Sathwik Tejaswi Madhusudhan
Abstract要約: Curry-DPOは一貫してMTbench、Vicuna、WizardLM、UltraFeedbackテストセットのパフォーマンス向上を示している。また、Curry-DPOはVicuna、WizardLM、UltraFeedbackテストデータセット上で最高に調整された勝利率を達成する。
参考スコア（独自算出の注目度）: 9.413320000101981
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Direct Preference Optimization (DPO) is an effective technique that leverages pairwise preference data (usually one chosen and rejected response pair per user prompt) to align LLMs to human preferences. In practice, multiple responses can exist for a given prompt with varying quality relative to each other. With availability of such quality ratings for multiple responses, we propose utilizing these responses to create multiple preference pairs for a given prompt. Our work focuses on systematically using the constructed multiple preference pair in DPO training via curriculum learning methodology. In particular, we order these multiple pairs of preference data from easy to hard (emulating curriculum training) according to various criteria. We show detailed comparisons of our proposed approach to the standard single-pair DPO setting. Our method, which we call Curry-DPO consistently shows increased performance gains on MTbench, Vicuna, WizardLM, and the UltraFeedback test set, highlighting its effectiveness. More specifically, Curry-DPO achieves a score of 7.43 on MT-bench with Zephy-7B model outperforming majority of existing LLMs with similar parameter size. Curry-DPO also achieves the highest adjusted win rates on Vicuna, WizardLM, and UltraFeedback test datasets (90.7%, 87.1%, and 87.9% respectively) in our experiments, with notable gains of upto 7.5% when compared to standard DPO technique.
Abstract（参考訳）: 直接選好最適化(direct preference optimization, dpo)は、対向選好データ(通常、ユーザのプロンプト毎に選択され拒否された応答ペア)を活用して、llmを人の選好に合わせる効果的な手法である。実際には、互いに異なる品質の与えられたプロンプトに対して複数の応答が存在する。複数の応答に対する品質評価が利用可能であるので、これらの応答を利用して、与えられたプロンプトに対して複数の選好ペアを作成する。本研究は,カリキュラム学習手法を用いたDPO学習において,構築された複数選好ペアを体系的に活用することに焦点を当てる。特に,これらの複数対の選好データを,様々な基準に従って容易から難しい(教育訓練を模倣する)選好データを順序付けする。提案手法と標準シングルペアdpo設定の詳細な比較を行った。本手法は,mtbench,vicuna,wizardlm,ultrafeedbackテストセットの性能向上を示し,その効果を強調する。より具体的には、Curry-DPOはMT-benchで7.43のスコアを達成し、Zephy-7Bモデルは同様のパラメータサイズを持つ既存のLLMの大部分を上回ります。また、Curry-DPOはVicuna、WizardLM、UltraFeedbackテストデータセット(それぞれ90.7%、87.1%、87.9%)において、通常のDPO技術と比較して最大7.5%の上昇率を達成した。

関連論文リスト

DCRM: A Heuristic to Measure Response Pair Quality in Preference Optimization [13.366219858094297]
本研究は,2つの軸に沿って分類された3種類の嗜好データセットについて検討する。トレーニングセットの高次距離校正リワードマージンと学習結果の総合的相関性を確立する。提案手法は,AlpacaEval,MT-Bench,Arena-Hardなどのモデルの性能を向上させるためのトレーニングデータセットを生成する。
論文参考訳（メタデータ） (2025-06-17T03:37:41Z)
FocalPO: Enhancing Preference Optimizing by Focusing on Correct Preference Rankings [40.605411087380226]
我々は、モデルがすでに正しくランク付けできるようなペアの理解を高めることを優先するDPO変種であるFocalPOを紹介した。視覚タスクで使用されるFocal LossにインスパイアされたFocalPOは、動的にDPO損失をスケールするために変調係数を追加することでこれを達成している。
論文参考訳（メタデータ） (2025-01-11T21:41:27Z)
Multi-Preference Optimization: Generalizing DPO via Set-Level Contrasts [17.243429150450886]
応答集合全体の最適化のために,$textbfMulti-Preference Optimization (MPO)を提案する。 MPOは偏差に基づく重み付けを採用しており、平均的な報酬から最も逸脱する外れ値の応答を強調している。理論的には、MPOはクエリ毎のレスポンス数に対して$mathcalOleft(frac1sqrtnright)$でアライメントバイアスを低減する。
論文参考訳（メタデータ） (2024-12-05T21:50:22Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。 TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文参考訳（メタデータ） (2024-10-06T04:03:00Z)
Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。 Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文参考訳（メタデータ） (2024-06-26T17:43:06Z)
Eliminating Biased Length Reliance of Direct Preference Optimization via Down-Sampled KL Divergence [31.03305638930844]
DPO(Direct Preference Optimization)は、大規模言語モデルと人間の好みとの直接的かつ堅牢なアライメントのための顕著なアルゴリズムとして登場した。有望な有効性にもかかわらず、DPOは顕著な欠点に直面している。また,この問題はDPOのアルゴリズム長依存性にも起因していると考えられる。
論文参考訳（メタデータ） (2024-06-16T14:24:30Z)
D2PO: Discriminator-Guided DPO with Response Evaluation Models [63.71853401569461]
学習を通して嗜好が収集されるオンライン環境において,識別器誘導型DPOであるD2POを提案する。金の選好を収集する際、これらは政策の訓練だけでなく、銀ラベルによる政策訓練のためのさらに総合的なデータに対する差別的な反応評価モデルを訓練するために利用します。 DPOで政策を訓練し、従来のPPOを上回り、政策モデルから分離した差別者を維持することの恩恵を受けるのが最も効果的である。
論文参考訳（メタデータ） (2024-05-02T17:44:41Z)
Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文参考訳（メタデータ） (2024-04-18T08:49:38Z)
Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文参考訳（メタデータ） (2024-03-31T02:05:40Z)
Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。 RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文参考訳（メタデータ） (2024-02-12T22:47:57Z)
LiPO: Listwise Preference Optimization through Learning-to-Rank [62.02782819559389]
ポリシーは、プロンプトによってランク付けされた妥当な応答のリストからより効果的に学習することができる。 LiPO-$lambda$ は DPO 変種と SLiC をいくつかの選好アライメントタスクにおいて明確なマージンで上回ることを示す。
論文参考訳（メタデータ） (2024-02-02T20:08:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。