論文の概要: Greedy Sampling Is Provably Efficient for RLHF
- arxiv url: http://arxiv.org/abs/2510.24700v1
- Date: Tue, 28 Oct 2025 17:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.32739
- Title: Greedy Sampling Is Provably Efficient for RLHF
- Title(参考訳): グリーディサンプリングはおそらくRLHFに効果がある
- Authors: Di Wu, Chengshuai Shi, Jing Yang, Cong Shen,
- Abstract要約: この研究は、一般的な嗜好モデルを検討し、既存のモデルよりも大きく、順序的に改善された性能保証を得る。
驚くべきことに、これらの結果は経験的推定を直接利用するアルゴリズムから導かれる。
この知見は、KL正規化対象の下での最適政策クラスのユニークな構造特性に深く根付いており、さらにBTモデルに特化している。
- 参考スコア(独自算出の注目度): 19.590316589389577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has emerged as a key technique for post-training large language models. Despite its empirical success, the theoretical understanding of RLHF is still limited, as learning the KL-regularized target with only preference feedback poses additional challenges compared with canonical RL. Existing works mostly study the reward-based Bradley-Terry (BT) preference model, and extend classical designs utilizing optimism or pessimism. This work, instead, considers the general preference model (whose practical relevance has been observed recently) and obtains performance guarantees with major, order-wise improvements over existing ones. Surprisingly, these results are derived from algorithms that directly use the empirical estimates (i.e., greedy sampling), as opposed to constructing optimistic or pessimistic estimates in previous works. This insight has a deep root in the unique structural property of the optimal policy class under the KL-regularized target, and we further specialize it to the BT model, highlighting the surprising sufficiency of greedy sampling in RLHF.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は、大規模言語モデルの訓練後において重要なテクニックとして登場した。
経験的成功にもかかわらず、RLHFの理論的理解はまだ限られており、KL規則化されたターゲットを好みのフィードバックだけで学習することは、標準的RLと比較してさらなる課題をもたらす。
既存の作品は主に報酬に基づくBradley-Terry(BT)選好モデルを研究し、楽観主義や悲観主義を利用して古典的なデザインを拡張している。
この研究は、代わりに一般的な嗜好モデル(実際的な妥当性が最近観測されている)を考察し、既存のモデルよりも大きく秩序的に改善された性能保証を得る。
驚くべきことに、これらの結果は、前作で楽観的あるいは悲観的な見積もりを構築するのとは対照的に、経験的推定(すなわち、欲求的なサンプリング)を直接使用するアルゴリズムから導かれる。
この知見は、KL規則化されたターゲットの下での最適政策クラスのユニークな構造特性に深く根ざしており、さらにBTモデルに特化して、RLHFにおけるグリーディサンプリングの驚くほどの有効性を強調している。
関連論文リスト
- ExPO: Unlocking Hard Reasoning with Self-Explanation-Guided Reinforcement Learning [12.83211408922535]
強化学習スタイルのポストトレーニングは、報酬や選好信号に基づいてモデル出力を最適化することで推論を改善する。
GRPOスタイルのアプローチでは、結果ベースの検証によってラベル付けされた自己生成サンプルを使用することでこれを実装している。
提案手法は, 基本的回答を条件に, 単純でモジュール化されたフレームワークである。
論文 参考訳(メタデータ) (2025-07-03T17:44:55Z) - Reward Model Overoptimisation in Iterated RLHF [10.041379049591969]
RLHF(Reinforcement Learning from Human feedback)は、大規模言語モデルと人間の好みを整合させる手法である。
RLHFはしばしば報酬モデルの過度な最適化に悩まされ、モデルが報酬関数に過度に適合する。
反復RLHFにおける過最適化の総合的研究について紹介する。
論文 参考訳(メタデータ) (2025-05-23T17:36:13Z) - Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - Regularizing Hidden States Enables Learning Generalizable Reward Model for LLMs [25.011675414622392]
本研究では,分配シフトに対する報酬モデルの一般化能力を高める新しい手法を提案する。
我々は、ベースモデルの言語モデルヘッドを保持し、隠れた状態のテキスト生成機能を維持するために、テキスト生成損失のスイートを組み込む。
実験結果から,導入した正規化手法が学習報酬モデルの精度を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-06-14T17:49:59Z) - Scaling Laws for Reward Model Overoptimization in Direct Alignment Algorithms [50.808123629394245]
Direct Preference Optimizationのようなダイレクトアライメントアルゴリズム(DDA)は、古典的なRLHFパイプラインの代替として登場した。
この研究は、DAAに対する過度な最適化やハッキングの問題を定式化し、その成果を目標、訓練体制、モデルスケールにわたって探求する。
論文 参考訳(メタデータ) (2024-06-05T03:41:37Z) - Online Iterative Reinforcement Learning from Human Feedback with General Preference Model [20.81421550138371]
本稿では,人間のフィードバックからの強化学習(RLHF)について,一般的な嗜好のオラクルの文脈で検討する。
我々は、RLHFの2つのLLM間の逆KL正規化ミニマックスゲームである標準的な数学的定式化を考える。
このフレームワークは報酬ベースよりも厳密に汎用的であり,事前選択された選好データセットからオフライン学習を行うためのサンプル効率のよいアルゴリズムとオンライン学習を提案する。
論文 参考訳(メタデータ) (2024-02-11T21:44:21Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。