Fugu-MT 論文翻訳(概要): Filtered Direct Preference Optimization

論文の概要: Filtered Direct Preference Optimization

arxiv url: http://arxiv.org/abs/2404.13846v2
Date: Tue, 23 Apr 2024 11:56:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-24 12:43:32.175980
Title: Filtered Direct Preference Optimization
Title（参考訳）: フィルタ直接選好最適化
Authors: Tetsuro Morimura, Mitsuki Sakamoto, Yuu Jinnai, Kenshi Abe, Kaito Ariu,
Abstract要約: 人間からのフィードバックからの強化学習(RLHF)は、言語モデルと人間の嗜好の整合において重要な役割を果たす。本稿では、DPO(Direct Preference Optimization)に着目して、嗜好データセットにおけるテキスト品質の問題に対処する。フィルタされた直接選好最適化(fDPO)と呼ばれるDPOの拡張を提案する。
参考スコア（独自算出の注目度）: 7.060398061192042
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning from human feedback (RLHF) plays a crucial role in aligning language models with human preferences. While the significance of dataset quality is generally recognized, explicit investigations into its impact within the RLHF framework, to our knowledge, have been limited. This paper addresses the issue of text quality within the preference dataset by focusing on Direct Preference Optimization (DPO), an increasingly adopted reward-model-free RLHF method. We confirm that text quality significantly influences the performance of models optimized with DPO more than those optimized with reward-model-based RLHF. Building on this new insight, we propose an extension of DPO, termed filtered direct preference optimization (fDPO). fDPO uses a trained reward model to monitor the quality of texts within the preference dataset during DPO training. Samples of lower quality are discarded based on comparisons with texts generated by the model being optimized, resulting in a more accurate dataset. Experimental results demonstrate that fDPO enhances the final model performance. Our code is available at https://github.com/CyberAgentAILab/filtered-dpo.
Abstract（参考訳）: 人間からのフィードバックからの強化学習(RLHF)は、言語モデルと人間の嗜好の整合において重要な役割を果たす。データセットの品質の重要性は一般的に認識されているが、我々の知る限り、RLHFフレームワークにおけるその影響に関する明確な調査は限られている。本稿では,報酬モデルのないRLHF法であるDPO(Direct Preference Optimization)に着目し,嗜好データセットにおけるテキスト品質の問題に対処する。テキストの品質が報酬モデルに基づくRLHFよりもDPOで最適化されたモデルの性能に大きく影響することを確認する。この知見に基づいて,フィルタ直接選好最適化(fDPO)と呼ばれるDPOの拡張を提案する。 fDPOはトレーニングされた報酬モデルを使用して、DPOトレーニング中の好みデータセット内のテキストの品質を監視する。低品質のサンプルは、最適化されたモデルによって生成されたテキストとの比較に基づいて破棄されるため、より正確なデータセットが生成される。実験結果から,fDPOは最終モデルの性能を向上させることが示された。私たちのコードはhttps://github.com/CyberAgentAILab/filtered-dpo.comで公開されています。

関連論文リスト

On the Role of Preference Variance in Preference Optimization [55.364953481473286]
直接選好最適化(DPO)トレーニングの有効性に対する選好分散(PVar)の影響について検討する。 PVarより高いプロンプトは、ランダムに選択されたプロンプトまたは低いPVarより優れたプロンプトを示す。
論文参考訳（メタデータ） (2025-10-14T22:34:52Z)
What Matters in Data for DPO? [6.208229499655634]
DPO(Direct Preference Optimization)は、大規模言語モデルを人間の好みに合わせるためのシンプルで効果的なアプローチとして登場した。本研究では,DPOの嗜好データ分布が理論的・経験的両面からどう影響するかを体系的に検討する。選択された応答の質がDPOの目的を最適化する上で重要な役割を担っているのに対し、拒否された応答の質は比較的限定的な影響を持つ可能性があることを示す。
論文参考訳（メタデータ） (2025-08-23T16:00:30Z)
Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO [51.22869332661607]
本研究では,人間からのフィードバックからの強化学習と,表現ギャップ下での直接選好最適化との間の性能ギャップを分解する。 RLHF, DPO, オンラインDPOは, モデルミスのタイプによって, 互いに優れることを示す。
論文参考訳（メタデータ） (2025-05-26T09:54:02Z)
Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model [20.623037493149507]
提案するPre-DPO(Pre-DPO)は,指導基準モデルを活用することにより,嗜好最適化性能を向上させる,シンプルで効果的なDPOベースのトレーニングパラダイムである。 AlpacaEval 2.0とArena-Hard v0.1ベンチマークの大規模な実験は、Pre-DPOがDPOとSimPOの両方のパフォーマンスを一貫して改善していることを示している。
論文参考訳（メタデータ） (2025-04-22T12:39:30Z)
Active Learning for Direct Preference Optimization [59.84525302418018]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習の一種である。オンラインのフィードバック収集や,すでに収集したフィードバックの最も情報性の高いサブセットをオフラインで選択できる,DPOのためのアクティブラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-03T00:36:31Z)
Less is More: Improving LLM Alignment via Preference Data Selection [46.9163802899686]
DPO(Direct Preference Optimization)は,大規模言語モデルと人間の嗜好を整合させる,有望なアプローチである。 DPOトレーニングにおけるデータセットキュレーションのための新たなマージン最大化原理を提案する。提案手法は反復的DPOにシームレスに拡張され,約3%の改善が達成され,25%のオンラインデータが得られた。
論文参考訳（メタデータ） (2025-02-20T13:45:17Z)
Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning [59.11519451499754]
直接選好最適化(DPO)は、言語モデルと人間の選好を整合させるデファクトアプローチとして登場した。最近の研究によると、DPOの有効性はデータ品質のトレーニングに依存している。基準モデル確率空間は,高品質なトレーニングサンプルを自然に検出する。
論文参考訳（メタデータ） (2025-01-25T07:21:50Z)
CRPO: Confidence-Reward Driven Preference Optimization for Machine Translation [20.959453238159863]
大規模言語モデル(LLM)は自然言語処理タスクにおいて大きな可能性を示しているが、機械翻訳(MT)への応用は依然として難しい。直接選好最適化(DPO)は、よりシンプルで効率的な代替手段として登場したが、その性能は好みデータの品質に大きく依存している。本稿では,報酬スコアとモデル信頼度を組み合わせて微調整のためのデータ選択を改善する新しい手法であるCRPOを提案する。
論文参考訳（メタデータ） (2025-01-23T18:59:47Z)
MPPO: Multi Pair-wise Preference Optimization for LLMs with Arbitrary Negative Samples [22.521746860874305]
本研究では,モデル応答の平均確率を利用して報酬関数に適合するMPPOアルゴリズムを提案する。 Pair-wise、Pair-wise、List-wiseの実装の比較により、Pair-wiseアプローチが最高のパフォーマンスを実現することがわかった。実験の結果、MPPOは様々なベンチマークで優れた性能を示した。
論文参考訳（メタデータ） (2024-12-13T14:18:58Z)
Towards Improved Preference Optimization Pipeline: from Data Generation to Budget-Controlled Regularization [14.50339880957898]
我々は、嗜好データ生成と正規化の訓練技術について、より深く検討することで、嗜好最適化パイプラインの改善を目指している。選好データ生成のために、ペアワイズ比較信号を用いて完了の選好ランキングを導出する反復的なペアワイズランキング機構を提案する。正規化のトレーニングでは、LLMが好むサンプルの確率をわずかに減少させると、好みの最適化がよりよく収束する傾向が観察される。
論文参考訳（メタデータ） (2024-11-07T23:03:11Z)
Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文参考訳（メタデータ） (2024-10-22T00:11:41Z)
How to Evaluate Reward Models for RLHF [51.31240621943791]
我々は、RLHF(Reinforcement Learning from Human Feedback)を通して強力な言語モデルを生成する能力を定量化する報酬モデルのための新しいベンチマークを導入する。我々は,プロキシタスクの報酬モデルを評価することにより,下流LLM性能の予測モデルを構築した。大規模クラウドソースによる人選好プラットフォーム上でのエンドツーエンドのRLHF実験をローンチした。
論文参考訳（メタデータ） (2024-10-18T21:38:21Z)
Reward-Augmented Data Enhances Direct Preference Alignment of LLMs [56.24431208419858]
報奨条件付き大言語モデル(LLM)を導入し、データセット内の応答品質のスペクトル全体から学習する。そこで本稿では,品質スコアに優先ペアを条件付け,報酬を加算したデータセットを構築する,効果的なデータレバーベリング手法を提案する。
論文参考訳（メタデータ） (2024-10-10T16:01:51Z)
ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。 ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文参考訳（メタデータ） (2024-09-14T11:39:13Z)
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。 DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文参考訳（メタデータ） (2024-08-14T11:29:47Z)
Iterative Length-Regularized Direct Preference Optimization: A Case Study on Improving 7B Language Models to GPT-4 Level [50.897438358317686]
また, iLR-DPOは, 冗長性を増大させることなく, GPT-4と同等の7Bモデルを実現できることを示した。具体的には、我々の7Bモデルは、AlpacaEval 2.0で$texttGPT-4 Preview$に対して50.5%の利益率を達成する。
論文参考訳（メタデータ） (2024-06-17T17:55:38Z)
Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF [80.32171988565999]
オンラインとオフラインのRLHFに統一的なアプローチを導入します。 VPOは、報酬関数の最大値推定を対応する値関数で正規化する。テキスト要約とダイアログの実験は、VPOの実用性と有効性を検証する。
論文参考訳（メタデータ） (2024-05-29T17:51:42Z)
Policy Optimization in RLHF: The Impact of Out-of-preference Data [17.126977660436225]
本稿では、DPO(Direct Preference Optimization)とReward-Model-Based Policy Optimization(RMB-PO)の2つの一般的なアライメント手法について検討する。 RMB-PO+とも呼ばれるRMB-POの変種も検討されている。特に、DPOと比較して、RMB-POはポリシー生成データを使用し、RMB-PO+は新たな好みのないデータを活用する。
論文参考訳（メタデータ） (2023-12-17T02:14:15Z)
Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文参考訳（メタデータ） (2023-11-21T15:24:05Z)
Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-13T01:07:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。