Fugu-MT 論文翻訳(概要): Statistical Rejection Sampling Improves Preference Optimization

論文の概要: Statistical Rejection Sampling Improves Preference Optimization

arxiv url: http://arxiv.org/abs/2309.06657v2
Date: Tue, 23 Jan 2024 23:16:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-25 17:30:47.724879
Title: Statistical Rejection Sampling Improves Preference Optimization
Title（参考訳）: 統計的拒絶サンプリングは選好最適化を改善する
Authors: Tianqi Liu, Yao Zhao, Rishabh Joshi, Misha Khalman, Mohammad Saleh, Peter J. Liu, Jialu Liu
Abstract要約: 提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
参考スコア（独自算出の注目度）: 42.57245965632205
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Improving the alignment of language models with human preferences remains an active research challenge. Previous approaches have primarily utilized Reinforcement Learning from Human Feedback (RLHF) via online RL methods such as Proximal Policy Optimization (PPO). Recently, offline methods such as Sequence Likelihood Calibration (SLiC) and Direct Preference Optimization (DPO) have emerged as attractive alternatives, offering improvements in stability and scalability while maintaining competitive performance. SLiC refines its loss function using sequence pairs sampled from a supervised fine-tuned (SFT) policy, while DPO directly optimizes language models based on preference data, foregoing the need for a separate reward model. However, the maximum likelihood estimator (MLE) of the target optimal policy requires labeled preference pairs sampled from that policy. DPO's lack of a reward model constrains its ability to sample preference pairs from the optimal policy, and SLiC is restricted to sampling preference pairs only from the SFT policy. To address these limitations, we introduce a novel approach called Statistical Rejection Sampling Optimization (RSO) that aims to source preference data from the target optimal policy using rejection sampling, enabling a more accurate estimation of the optimal policy. We also propose a unified framework that enhances the loss functions used in both SLiC and DPO from a preference modeling standpoint. Through extensive experiments across three diverse tasks, we demonstrate that RSO consistently outperforms both SLiC and DPO on evaluations from both Large Language Model (LLM) and human raters.
Abstract（参考訳）: 言語モデルのアライメントと人間の好みの改善は、現在も活発な研究課題である。従来のアプローチでは,PPO(Proximal Policy Optimization)などのオンラインRL手法を用いて,RLHF(Reinforcement Learning from Human Feedback)を主に利用していた。近年、SLiC(Sequence Likelihood Calibration)やDPO(Direct Preference Optimization)といったオフライン手法が魅力的な代替手段として登場し、競争性能を維持しながら安定性とスケーラビリティを改善している。 SLiCは、教師付き微調整(SFT)ポリシーからサンプリングされたシーケンスペアを使用して損失関数を洗練し、DPOは好みデータに基づいて言語モデルを直接最適化し、別の報酬モデルの必要性を先導する。しかし、目標最適ポリシーの最大確率推定器(mle)は、そのポリシーからサンプリングされたラベル付き選好ペアを必要とする。 DPOの報酬モデルがないことは、最適ポリシーから選好ペアをサンプリングする能力を制限し、SLiCはSFTポリシーからのみ選好ペアをサンプリングすることに制限される。これらの制約に対処するため,我々は,目的とする最適政策から選好データを抽出し,より正確な最適政策推定を可能にする,統計リジェクションサンプリング最適化 (RSO) という新しい手法を導入する。また,slic と dpo の両方で使用される損失関数を選好モデリングの観点から拡張する統一フレームワークを提案する。 3つの多種多様なタスクにわたる広範な実験を通して、RSOはLarge Language Model (LLM) と人間レーダの両方の評価において、SLiCとDPOの両方を一貫して上回っていることを示した。

関連論文リスト

Provably avoiding over-optimization in Direct Preference Optimization without knowing the data distribution [47.604070468150844]
優先学習において、よく知られた過最適化問題を緩和するために、単段階直接選好最適化のようなアルゴリズムPEPOを導入する。 PEPOは、不整合データサブセットに基づいて訓練された嗜好最適化ポリシーのアンサンブルを通じて悲観的を達成する。
論文参考訳（メタデータ） (2026-02-05T22:31:07Z)
On Symmetric Losses for Robust Policy Optimization with Noisy Preferences [55.8615920580824]
この研究は、人間からのフィードバックから強化学習のコアコンポーネントである報酬モデリングに焦点を当てている。本稿では, 騒音条件下でのロバストな政策最適化のための基本的枠組みを提案する。対称的損失は,ノイズラベルの下でも政策最適化を成功させることができることを証明した。
論文参考訳（メタデータ） (2025-05-30T15:30:43Z)
Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model [20.623037493149507]
提案するPre-DPO(Pre-DPO)は,指導基準モデルを活用することにより,嗜好最適化性能を向上させる,シンプルで効果的なDPOベースのトレーニングパラダイムである。 AlpacaEval 2.0とArena-Hard v0.1ベンチマークの大規模な実験は、Pre-DPOがDPOとSimPOの両方のパフォーマンスを一貫して改善していることを示している。
論文参考訳（メタデータ） (2025-04-22T12:39:30Z)
Distributionally Robust Direct Preference Optimization [15.328510632723505]
大規模言語モデルを人間の好みに合わせる上での大きな課題は、分散シフトの問題である。 WDPO(Wasserstein DPO)とKLDPO(Kullback-Leibler DPO)という,分散的に堅牢な直接選好最適化アルゴリズムを新たに開発した。本実験は,WDPOとKLDPOが優先分布シフトの際のアライメントを大幅に改善する上で,優れた性能を示すものである。
論文参考訳（メタデータ） (2025-02-04T02:03:19Z)
Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文参考訳（メタデータ） (2024-10-26T14:24:37Z)
SePPO: Semi-Policy Preference Optimization for Diffusion Alignment [67.8738082040299]
本稿では、報酬モデルやペアの人間注釈データに頼ることなく、DMと好みを一致させる選好最適化手法を提案する。テキスト・ツー・イメージとテキスト・ツー・ビデオのベンチマークでSePPOを検証する。
論文参考訳（メタデータ） (2024-10-07T17:56:53Z)
TSO: Self-Training with Scaled Preference Optimization [14.3799656174528]
我々は、追加の報酬モデルを訓練することなく、自己学習による選好学習を行う、選好最適化のためのフレームワークTSOを提案する。 TSOは、モデル行列を構築し、人間の嗜好応答を取り入れることで、応答の多様性を高める。実験の結果、TSOは様々なアライメント評価ベンチマークにおいて、既存の主流手法よりも優れていた。
論文参考訳（メタデータ） (2024-08-31T05:37:01Z)
Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。 DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文参考訳（メタデータ） (2024-08-14T11:29:47Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。 DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文参考訳（メタデータ） (2024-02-15T16:00:58Z)
Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文参考訳（メタデータ） (2024-02-01T18:51:54Z)
Preference as Reward, Maximum Preference Optimization with Importance Sampling [3.7040071165219595]
我々は、重要サンプリングの観点から、単純で直感的な非政治的選好最適化アルゴリズムを提案し、これを最大選好最適化(MPO)と呼ぶ。 MPOは、RLHFとIPOの目的を、独占的アルゴリズムであると同時に組み合わせることで、両方の世界のベストを達成している。
論文参考訳（メタデータ） (2023-12-27T06:34:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。