論文の概要: Statistical Rejection Sampling Improves Preference Optimization
- arxiv url: http://arxiv.org/abs/2309.06657v2
- Date: Tue, 23 Jan 2024 23:16:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 17:30:47.724879
- Title: Statistical Rejection Sampling Improves Preference Optimization
- Title(参考訳): 統計的拒絶サンプリングは選好最適化を改善する
- Authors: Tianqi Liu, Yao Zhao, Rishabh Joshi, Misha Khalman, Mohammad Saleh,
Peter J. Liu, Jialu Liu
- Abstract要約: 提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
- 参考スコア(独自算出の注目度): 42.57245965632205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improving the alignment of language models with human preferences remains an
active research challenge. Previous approaches have primarily utilized
Reinforcement Learning from Human Feedback (RLHF) via online RL methods such as
Proximal Policy Optimization (PPO). Recently, offline methods such as Sequence
Likelihood Calibration (SLiC) and Direct Preference Optimization (DPO) have
emerged as attractive alternatives, offering improvements in stability and
scalability while maintaining competitive performance. SLiC refines its loss
function using sequence pairs sampled from a supervised fine-tuned (SFT)
policy, while DPO directly optimizes language models based on preference data,
foregoing the need for a separate reward model. However, the maximum likelihood
estimator (MLE) of the target optimal policy requires labeled preference pairs
sampled from that policy. DPO's lack of a reward model constrains its ability
to sample preference pairs from the optimal policy, and SLiC is restricted to
sampling preference pairs only from the SFT policy. To address these
limitations, we introduce a novel approach called Statistical Rejection
Sampling Optimization (RSO) that aims to source preference data from the target
optimal policy using rejection sampling, enabling a more accurate estimation of
the optimal policy. We also propose a unified framework that enhances the loss
functions used in both SLiC and DPO from a preference modeling standpoint.
Through extensive experiments across three diverse tasks, we demonstrate that
RSO consistently outperforms both SLiC and DPO on evaluations from both Large
Language Model (LLM) and human raters.
- Abstract(参考訳): 言語モデルのアライメントと人間の好みの改善は、現在も活発な研究課題である。
従来のアプローチでは,PPO(Proximal Policy Optimization)などのオンラインRL手法を用いて,RLHF(Reinforcement Learning from Human Feedback)を主に利用していた。
近年、SLiC(Sequence Likelihood Calibration)やDPO(Direct Preference Optimization)といったオフライン手法が魅力的な代替手段として登場し、競争性能を維持しながら安定性とスケーラビリティを改善している。
SLiCは、教師付き微調整(SFT)ポリシーからサンプリングされたシーケンスペアを使用して損失関数を洗練し、DPOは好みデータに基づいて言語モデルを直接最適化し、別の報酬モデルの必要性を先導する。
しかし、目標最適ポリシーの最大確率推定器(mle)は、そのポリシーからサンプリングされたラベル付き選好ペアを必要とする。
DPOの報酬モデルがないことは、最適ポリシーから選好ペアをサンプリングする能力を制限し、SLiCはSFTポリシーからのみ選好ペアをサンプリングすることに制限される。
これらの制約に対処するため,我々は,目的とする最適政策から選好データを抽出し,より正確な最適政策推定を可能にする,統計リジェクションサンプリング最適化 (RSO) という新しい手法を導入する。
また,slic と dpo の両方で使用される損失関数を選好モデリングの観点から拡張する統一フレームワークを提案する。
3つの多種多様なタスクにわたる広範な実験を通して、RSOはLarge Language Model (LLM) と人間レーダの両方の評価において、SLiCとDPOの両方を一貫して上回っていることを示した。
関連論文リスト
- Overcoming Reward Overoptimization via Adversarial Policy Optimization
with Lightweight Uncertainty Estimation [50.0151082930949]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z) - RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization
Method for Alignment of Large Language Models [8.134117126995694]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。
DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。
本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。
提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文 参考訳(メタデータ) (2024-02-15T16:00:58Z) - Towards Efficient and Exact Optimization of Language Model Alignment [97.41422112912574]
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを証明した。
さらに、現実的な人間の嗜好データに対する既存のアプローチよりも、提案手法の利点を実証する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Preference as Reward, Maximum Preference Optimization with Importance
Sampling [4.162932802377523]
優先度学習は、言語モデルを人間の価値と整合させるための重要な技術である。
RLHFの処理は複雑で、時間がかかり、不安定である。
本稿では,重要サンプリングの観点から,シンプルで直感的な非政治的選好最適化アルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-12-27T06:34:54Z) - A dynamical clipping approach with task feedback for Proximal Policy
Optimization [31.823327359782162]
最適クリッピング境界がトレーニングプロセス全体を通して一貫していることの理論的証明はない。
以前の研究では、固定された切り抜きがエージェントの探索を制限することが示唆された。
Pb-PPO(Preference based Proximal Policy Optimization)と呼ばれる新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-12-12T06:35:56Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward
Model [126.78737228677025]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - You May Not Need Ratio Clipping in PPO [117.03368180633463]
Proximal Policy Optimization (PPO) 法は、複数のミニバッチ最適化エポックを1組のサンプルデータで反復的に実行することでポリシーを学習する。
比率クリッピングPPOは、ターゲットポリシーとサンプル収集に使用されるポリシーの確率比をクリップする一般的な変種である。
本論文では, この比クリッピングが有効に結合できないため, 良好な選択ではないことを示す。
ESPOは、多くのワーカーによる分散トレーニングに簡単にスケールアップでき、パフォーマンスも高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T20:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。