論文の概要: Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level
- arxiv url: http://arxiv.org/abs/2406.11817v1
- Date: Mon, 17 Jun 2024 17:55:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 13:14:13.735054
- Title: Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level
- Title(参考訳): 反復長規則化直接選好最適化:GPT-4レベルへの7B言語モデルの改良を事例として
- Authors: Jie Liu, Zhanhui Zhou, Jiaheng Liu, Xingyuan Bu, Chao Yang, Han-Sen Zhong, Wanli Ouyang,
- Abstract要約: また, iLR-DPOは, 冗長性を増大させることなく, GPT-4と同等の7Bモデルを実現できることを示した。
具体的には、我々の7Bモデルは、AlpacaEval 2.0で$texttGPT-4 Preview$に対して50.5%の利益率を達成する。
- 参考スコア(独自算出の注目度): 50.897438358317686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct Preference Optimization (DPO), a standard method for aligning language models with human preferences, is traditionally applied to offline preferences. Recent studies show that DPO benefits from iterative training with online preferences labeled by a trained reward model. In this work, we identify a pitfall of vanilla iterative DPO - improved response quality can lead to increased verbosity. To address this, we introduce iterative length-regularized DPO (iLR-DPO) to penalize response length. Our empirical results show that iLR-DPO can enhance a 7B model to perform on par with GPT-4 without increasing verbosity. Specifically, our 7B model achieves a $50.5\%$ length-controlled win rate against $\texttt{GPT-4 Preview}$ on AlpacaEval 2.0, and excels across standard benchmarks including MT-Bench, Arena-Hard and OpenLLM Leaderboard. These results demonstrate the effectiveness of iterative DPO in aligning language models with human feedback.
- Abstract(参考訳): 言語モデルと人間の嗜好を整合させる標準的な手法である直接選好最適化(DPO)は、伝統的にオフライン選好に適用される。
近年の研究では、DPOはトレーニングされた報酬モデルによってラベル付けされたオンライン嗜好による反復的なトレーニングの恩恵を受けていることが示されている。
本研究では,バニラ反復DPOの落とし穴を同定し,応答品質の改善が冗長性の向上につながることを示した。
そこで本研究では, 繰り返し長規則化DPO (iLR-DPO) を導入し, 応答長をペナライズする。
実験の結果, iLR-DPOは, GPT-4と同等に 7B モデルを拡張できることがわかった。
具体的には、我々の7Bモデルは、$\texttt{GPT-4 Preview}$ on AlpacaEval 2.0に対して50.5\%$の長さ制御の勝利率を達成し、MT-Bench、Arena-Hard、OpenLLM Leaderboardといった標準ベンチマークを網羅しています。
これらの結果は、言語モデルと人間のフィードバックの整合における反復的DPOの有効性を示す。
関連論文リスト
- GDPO: Learning to Directly Align Language Models with Diversity Using GFlowNets [19.485572131953937]
本稿では,GFlowNet-DPO (GDPO) と呼ばれる多様性探索型RLアルゴリズムのオフライン優先アライメント設定における実用的応用を提案する。
実証的な結果から、GDPOはベースライン法よりもはるかに多様な応答を生成できることが示された。
論文 参考訳(メタデータ) (2024-10-19T13:07:52Z) - TPO: Aligning Large Language Models with Multi-branch & Multi-step Preference Trees [14.84379332031731]
本稿では、選好木からペア化された選好応答をサンプリングしないツリー選好最適化(TPO)を導入する。
TPOは、言語モデルのアライメントを、優先順位リストランキング問題として定式化し、ポリシーは、ランク付けされた優先順位リストからより効果的に学習することができる。
論文 参考訳(メタデータ) (2024-10-10T22:22:05Z) - General Preference Modeling with Preference Representations for Aligning Language Models [51.14207112118503]
我々は、複雑な嗜好構造を効率的に捉えるために、応答を潜在空間に埋め込んだ選好表現学習を導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Bootstrapping Language Models with DPO Implicit Rewards [45.68366127605774]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習において、過去の作業からプロセスを大幅に単純化した。
本研究では,この暗黙の報酬モデル自体をブートストラップ方式で利用することにより,LLMをさらに整合させることができることを示す。
DPO ImpliCit rEwards (DICE) を用いた自己アライメント(自己アライメント)という手法は、アライメントの大幅な改善と優れた性能を実現する。
論文 参考訳(メタデータ) (2024-06-14T06:57:18Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Filtered Direct Preference Optimization [7.060398061192042]
人間からのフィードバックからの強化学習(RLHF)は、言語モデルと人間の嗜好の整合において重要な役割を果たす。
本稿では、直接選好最適化(DPO)に着目して、選好データセットにおけるテキスト品質の問題に対処する。
フィルタされた直接選好最適化(fDPO)と呼ばれるDPOの拡張を提案する。
論文 参考訳(メタデータ) (2024-04-22T03:05:19Z) - Direct Preference Optimization with an Offset [58.7977683502207]
直接選好最適化(DPO)は、大きな言語モデルと人間の選好を整合させる成功戦略である。
本稿では,DPOをオフセット(ODPO)で一般化し,微調整時にすべての選好ペアを等しく扱わないDPOを提案する。
論文 参考訳(メタデータ) (2024-02-16T10:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。