論文の概要: Modulated Intervention Preference Optimization (MIPO): Keey the Easy,
Refine the Difficult
- arxiv url: http://arxiv.org/abs/2409.17545v1
- Date: Thu, 26 Sep 2024 05:24:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 22:56:36.509419
- Title: Modulated Intervention Preference Optimization (MIPO): Keey the Easy,
Refine the Difficult
- Title(参考訳): Modulated Intervention Preference Optimization (MIPO): Keey the Easy,
難易度を再定義する
- Authors: Cheolhun Jang
- Abstract要約: この問題に対処するため,textbfModulated Intervention Preference Optimization (MIPO)を提案する。
MIPOは、そのデータがどのように適合しているかに基づいて、参照モデルからの介入の度合いを変調する。
我々は,Alpaca Eval 2.0 と MT-Bench における Mistral-7B と Llama3-8B を用いた MIPO と DPO の性能を比較した。
- 参考スコア(独自算出の注目度): 0.48951183832371004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference optimization methods typically begin training with a well-trained
SFT model as a reference model. In RLHF and DPO, a regularization term is used
during the preference optimization process to prevent the policy model from
deviating too far from the reference model's distribution, thereby avoiding the
generation of anomalous responses. When the reference model is already
well-aligned with the given data or only requires slight adjustments, this
approach can produce a well-aligned model. However, if the reference model is
not aligned with the given data and requires significant deviation from its
current state, a regularization term may actually hinder the model alignment.
In this study, we propose \textbf{Modulated Intervention Preference
Optimization (MIPO)} to address this issue. MIPO modulates the degree of
intervention from the reference model based on how well the given data is
aligned with it. If the data is well-aligned, the intervention is increased to
prevent the policy model from diverging significantly from reference model.
Conversely, if the alignment is poor, the interference is reduced to facilitate
more extensive training. We compare the performance of MIPO and DPO using
Mistral-7B and Llama3-8B in Alpaca Eval 2.0 and MT-Bench. The experimental
results demonstrate that MIPO consistently outperforms DPO across various
evaluation scenarios.
- Abstract(参考訳): 優先最適化手法は、よく訓練されたSFTモデルを基準モデルとしてトレーニングを開始するのが一般的である。
RLHF と DPO では、ポリシーモデルが参照モデルの分布から過度に逸脱することを防止するために、優先順位最適化プロセス中に正規化項が使用される。
参照モデルが与えられたデータにすでに整合している場合、あるいはわずかな調整しか必要としていない場合、このアプローチは、整合性のあるモデルを生成することができる。
しかし、参照モデルが与えられたデータと一致せず、現在の状態からかなり逸脱する必要がある場合、正規化項が実際にモデルアライメントを妨げる可能性がある。
そこで本研究では,この問題に対処するために,textbf{Modulated Intervention Preference Optimization (MIPO)を提案する。
MIPOは、そのデータがどのように適合しているかに基づいて、参照モデルからの介入の度合いを変調する。
データが適切に整合している場合、ポリシーモデルが参照モデルから著しく逸脱することを防ぐために介入が増加する。
逆に、アライメントが不十分な場合、干渉を減らし、より広範なトレーニングを容易にする。
我々は,Alpaca Eval 2.0 と MT-Bench における Mistral-7B と Llama3-8B を用いた MIPO と DPO の性能を比較した。
実験の結果,MIPO は様々な評価シナリオにおいて DPO を一貫して上回っていることがわかった。
関連論文リスト
- Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Preference Alignment with Flow Matching [23.042382086241364]
優先フローマッチング(PFM)は、好みに基づく強化学習(PbRL)のための新しいフレームワークである
事前訓練されたモデルの任意のクラスへの好みの統合を合理化する。
提案手法の標準PbRL目標との整合性を支持する理論的知見を提供する。
論文 参考訳(メタデータ) (2024-05-30T08:16:22Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
言語モデル (LM) は、好みのアノテーションから派生した報酬関数を最大化する。
DPOは、報酬モデルや強化学習を適用することなく、優先データに直接ポリシーを訓練する一般的なオフラインアライメント手法である。
この現象を解析し, 生成対よりも真の嗜好分布のより良いプロキシを得るため, 蒸留を提案する。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Weak-to-Strong Extrapolation Expedites Alignment [135.12769233630362]
モデルと人間の嗜好との整合性を高めるために,ExPOと呼ばれる手法を提案する。
ExPOは市販のDPO/RLHFモデルを一貫して改善することを示した。
我々は、アライメントトレーニング中に学んだ報酬信号を増幅するExPOの本質に光を当てた。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Smaug: Fixing Failure Modes of Preference Optimisation with DPO-Positive [15.066029556877721]
理論上、標準的なDPO損失は、モデルが好むサンプルの可能性を減少させる可能性があることを示す。
DPO-Positive (DPOP) は,この障害モードを回避する新しい損失関数とトレーニング手順である。
意外なことに、DPOPはさまざまなデータセットや下流タスクでDPOやその他の微調整手順より優れています。
論文 参考訳(メタデータ) (2024-02-20T18:42:34Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Model-based Policy Optimization with Unsupervised Model Adaptation [37.09948645461043]
本研究では,不正確なモデル推定による実データとシミュレーションデータのギャップを埋めて,より良いポリシ最適化を実現する方法について検討する。
本稿では,教師なしモデル適応を導入したモデルベース強化学習フレームワークAMPOを提案する。
提案手法は,一連の連続制御ベンチマークタスクにおけるサンプル効率の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-10-19T14:19:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。