Fugu-MT 論文翻訳(概要): Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF

論文の概要: Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF

arxiv url: http://arxiv.org/abs/2405.19320v3
Date: Fri, 5 Jul 2024 04:59:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-08 22:54:33.703618
Title: Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF
Title（参考訳）: Value-Incentivized Preference Optimization:オンラインとオフラインのRLHFに対する統一的なアプローチ
Authors: Shicong Cen, Jincheng Mei, Katayoon Goshvadi, Hanjun Dai, Tong Yang, Sherry Yang, Dale Schuurmans, Yuejie Chi, Bo Dai,
Abstract要約: オンラインとオフラインのRLHFに統一的なアプローチを導入します。 VPOは、報酬関数の最大値推定を対応する値関数で正規化する。テキスト要約とダイアログの実験は、VPOの実用性と有効性を検証する。
参考スコア（独自算出の注目度）: 80.32171988565999
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning from human feedback (RLHF) has demonstrated great promise in aligning large language models (LLMs) with human preference. Depending on the availability of preference data, both online and offline RLHF are active areas of investigation. A key bottleneck is understanding how to incorporate uncertainty estimation in the reward function learned from the preference data for RLHF, regardless of how the preference data is collected. While the principles of optimism or pessimism under uncertainty are well-established in standard reinforcement learning (RL), a practically-implementable and theoretically-grounded form amenable to large language models is not yet available, as standard techniques for constructing confidence intervals become intractable under arbitrary policy parameterizations. In this paper, we introduce a unified approach to online and offline RLHF -- value-incentivized preference optimization (VPO) -- which regularizes the maximum-likelihood estimate of the reward function with the corresponding value function, modulated by a $\textit{sign}$ to indicate whether the optimism or pessimism is chosen. VPO also directly optimizes the policy with implicit reward modeling, and therefore shares a simpler RLHF pipeline similar to direct preference optimization. Theoretical guarantees of VPO are provided for both online and offline settings, matching the rates of their standard RL counterparts. Moreover, experiments on text summarization and dialog verify the practicality and effectiveness of VPO.
Abstract（参考訳）: 人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)と人間の嗜好の整合性を示す。嗜好データの利用状況によっては、オンラインとオフラインのRLHFの両方が調査の活発な領域である。主なボトルネックは、RLHFの選好データから得られた報奨関数に不確実性推定を組み込む方法を理解することである。不確実性の下での楽観主義や悲観主義の原理は、標準強化学習(RL)において十分に確立されているが、任意の政策パラメータ化の下では、信頼区間を構築するための標準技術が難解になるため、大規模言語モデルに適応可能な実用的な実装可能で理論的に構築された形式は、まだ利用できない。本稿では,オンラインおよびオフラインのRLHF (value-incentivized preference optimization, VPO) に対する統一的なアプローチを提案する。 VPOはまた、暗黙の報酬モデリングでポリシーを直接最適化するので、直接の優先最適化と同様のシンプルなRLHFパイプラインを共有している。 VPOの理論的保証は、オンラインとオフラインの両方で提供され、標準RLのレートと一致する。さらに、テキスト要約とダイアログの実験により、VPOの実用性と有効性を検証する。

関連論文リスト

InSPO: Unlocking Intrinsic Self-Reflection for LLM Preference Optimization [18.988527161000203]
Intrinsic Self-reflective Preference Optimization (InSPO)を提案する。 InSPOは、アーキテクチャの変更や推論のオーバーヘッドなしに、プラグインとプレイの強化として機能する。
論文参考訳（メタデータ） (2025-12-29T00:59:23Z)
Offline RL by Reward-Weighted Fine-Tuning for Conversation Optimization [44.3655156382259]
大規模言語モデル(LLM)を用いたオフラインRLの実践的アプローチを提案する。我々は、この問題を報酬重み付けファインチューニングとして再考し、教師付きファインチューニング(SFT)と同様の手法を用いて解決することができる。
論文参考訳（メタデータ） (2025-06-08T01:59:30Z)
PILAF: Optimal Human Preference Sampling for Reward Modeling [14.336058926701432]
そこで我々は,プライオリティラベリングのための新しい応答サンプリング戦略であるPILAF(Policy-Interpolated Learning for Aligned Feedback)を提案する。 PILAFは、優先学習と基礎となるオラクル報酬の最大化を明確に調整する。
論文参考訳（メタデータ） (2025-02-06T18:09:00Z)
Online Preference Alignment for Language Models via Count-based Exploration [46.46627519343809]
Reinforcement Learning from Human Feedback (RLHF)は、人間の好みに合わせて微調整された大規模言語モデル(LLM)に大きな可能性を示している。既存のメソッドは、データカバレッジに制限のある、固定データセットからの好みのアライメントを実行する。オンラインRLHFは、プロンプト-レスポンスペアを反復的に収集することで、LLMが初期データセットのサポートの外部を探索できるようにするのが望ましい。
論文参考訳（メタデータ） (2025-01-22T09:12:09Z)
GDPO: Learning to Directly Align Language Models with Diversity Using GFlowNets [19.485572131953937]
本稿では,GFlowNet-DPO (GDPO) と呼ばれる多様性探索型RLアルゴリズムのオフライン優先アライメント設定における実用的応用を提案する。実証的な結果から、GDPOはベースライン法よりもはるかに多様な応答を生成できることが示された。
論文参考訳（メタデータ） (2024-10-19T13:07:52Z)
Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
新たなオフラインアライメントアルゴリズムである$chi2$-Preference Optimization(chi$PO)を提案する。 $chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。過度な最適化には確実に堅牢であり、単一政治の集中性に基づいたサンプル複雑度保証を実現する。
論文参考訳（メタデータ） (2024-07-18T11:08:40Z)
Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文参考訳（メタデータ） (2024-06-26T15:59:13Z)
SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文参考訳（メタデータ） (2024-06-21T18:05:35Z)
The Importance of Online Data: Understanding Preference Fine-tuning via Coverage [25.782644676250115]
選好微調整におけるオンライン手法とオフライン手法の類似点と相違点について検討した。グローバルなカバレッジ条件は、オフラインのコントラスト手法が最適ポリシーに収束するのに必要かつ十分であることを示す。 KL正規化のためのオンラインデータとコントラストベースの選好最適化にオフラインデータを利用するハイブリッド選好最適化アルゴリズムを導出する。
論文参考訳（メタデータ） (2024-06-03T15:51:04Z)
Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文参考訳（メタデータ） (2024-05-31T14:21:04Z)
Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文参考訳（メタデータ） (2024-02-01T18:51:54Z)
Preference as Reward, Maximum Preference Optimization with Importance Sampling [3.7040071165219595]
我々は、重要サンプリングの観点から、単純で直感的な非政治的選好最適化アルゴリズムを提案し、これを最大選好最適化(MPO)と呼ぶ。 MPOは、RLHFとIPOの目的を、独占的アルゴリズムであると同時に組み合わせることで、両方の世界のベストを達成している。
論文参考訳（メタデータ） (2023-12-27T06:34:54Z)
OptiDICE: Offline Policy Optimization via Stationary Distribution Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。 OptiDICEは最先端の手法と競合して動作することを示す。
論文参考訳（メタデータ） (2021-06-21T00:43:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。