論文の概要: Preference as Reward, Maximum Preference Optimization with Importance
Sampling
- arxiv url: http://arxiv.org/abs/2312.16430v4
- Date: Mon, 8 Jan 2024 14:30:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 11:26:04.680694
- Title: Preference as Reward, Maximum Preference Optimization with Importance
Sampling
- Title(参考訳): コンパタンスサンプリングによるリワード, 最大優先度最適化の選好
- Authors: Zaifan Jiang, Xing Huang, Chao Wei
- Abstract要約: 優先度学習は、言語モデルを人間の価値と整合させるための重要な技術である。
RLHFの処理は複雑で、時間がかかり、不安定である。
本稿では,重要サンプリングの観点から,シンプルで直感的な非政治的選好最適化アルゴリズムを設計する。
- 参考スコア(独自算出の注目度): 4.162932802377523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference learning is a key technology for aligning language models with
human values. Reinforcement Learning from Human Feedback (RLHF) is a model
based algorithm to optimize preference learning, which first fitting a reward
model for preference score, and then optimizing generating policy with
on-policy PPO algorithm to maximize the reward. The processing of RLHF is
complex, time-consuming and unstable. Direct Preference Optimization (DPO)
algorithm using off-policy algorithm to direct optimize generating policy and
eliminating the need for reward model, which is data efficient and stable. DPO
use Bradley-Terry model and log-loss which leads to over-fitting to the
preference data at the expense of ignoring KL-regularization term when
preference is deterministic. IPO uses a root-finding MSE loss to solve the
ignoring KL-regularization problem. In this paper, we'll figure out, although
IPO fix the problem when preference is deterministic, but both DPO and IPO
fails the KL-regularization term because the support of preference distribution
not equal to reference distribution. Then, we design a simple and intuitive
off-policy preference optimization algorithm from an importance sampling view,
which we call Maximum Preference Optimization (MPO), and add off-policy
KL-regularization terms which makes KL-regularization truly effective. The
objective of MPO bears resemblance to RLHF's objective, and likes IPO, MPO is
off-policy. So, MPO attains the best of both worlds. To simplify the learning
process and save memory usage, MPO eliminates the needs for both reward model
and reference policy.
- Abstract(参考訳): 優先度学習は、言語モデルと人間の価値を合わせるための重要な技術である。
人的フィードバックからの強化学習(rlhf)は、まず選好スコアに対して報奨モデルに適合し、次に報奨を最大化するためにオンポリシーppoアルゴリズムで生成ポリシーを最適化する、選好学習を最適化するモデルベースアルゴリズムである。
RLHFの処理は複雑で、時間がかかり、不安定である。
オフラインアルゴリズムを用いた直接選好最適化(DPO)アルゴリズムにより、生成ポリシーを直接最適化し、データ効率が高く安定した報酬モデルの必要性を排除する。
DPOはBradley-Terryモデルとログロスを使用し、好みが決定論的である場合のKL正規化項を無視して、好みデータに過度に適合する。
IPOは、無視するKL正規化問題を解決するために、根絶するMSE損失を使用する。
本論では、優先性が決定論的である場合にIPOが問題を修正するが、DPOとIPOはいずれも基準分布と一致しないため、KL正規化項に失敗する。
次に,最大選好最適化(mpo)と呼ぶ重要サンプリング視点から,単純で直感的なオフポリシー選好最適化アルゴリズムを設計し,kl正規化を真に効果的にするオフポリシーkl正規化項を追加する。
MPOの目的は、RLHFの目的に似ており、IPOと同様に、MPOは非政治である。
したがって、MPOは両方の世界のベストを達成できる。
学習プロセスを簡素化し、メモリ使用量を節約するために、MPOは報酬モデルと参照ポリシーの両方の必要性を排除する。
関連論文リスト
- Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。
直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。
本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T18:51:01Z) - Minor DPO reject penalty to increase training robustness [8.971332948872185]
人間の嗜好からの学習は、ダウンストリームタスクにおいて、事前学習されたLLMを人間の嗜好に合わせるために、大規模言語モデル(LLM)の微調整ステップで使用されるパラダイムである。
近年,簡易なRLフリー手法でアライメント問題を解決するために,DPO(Direct Preference Optimization)が提案されている。
本稿では、DPOにおける$beta$の動作メカニズムを分析し、RLアルゴリズムとDPOの構文差を明らかにし、DPOの単純化による潜在的な不足について理解する。
論文 参考訳(メタデータ) (2024-08-19T09:29:31Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
新たなオフラインアライメントアルゴリズムである$chi2$-Preference Optimization(chi$PO)を提案する。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
過度な最適化には確実に堅牢であり、単一政治の集中性に基づいたサンプル複雑度保証を実現する。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。