論文の概要: Thompson Sampling in Online RLHF with General Function Approximation
- arxiv url: http://arxiv.org/abs/2505.23927v1
- Date: Thu, 29 May 2025 18:22:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.620775
- Title: Thompson Sampling in Online RLHF with General Function Approximation
- Title(参考訳): 一般関数近似を用いたオンラインRLHFにおけるトンプソンサンプリング
- Authors: Songtao Feng, Jie Fu,
- Abstract要約: 本稿では,人間フィードバック(RLHF)アルゴリズムによる強化学習の統計的効率を理論的観点から検討する。
我々はトンプソンサンプリングにインスパイアされたオンラインRLHFのためのモデルフリー後部サンプリングアルゴリズムを設計し、その理論的保証を提供する。
- 参考スコア(独自算出の注目度): 30.209211416606514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) has achieved great empirical success in aligning large language models (LLMs) with human preference, and it is of great importance to study the statistical efficiency of RLHF algorithms from a theoretical perspective. In this work, we consider the online RLHF setting where the preference data is revealed during the learning process and study action value function approximation. We design a model-free posterior sampling algorithm for online RLHF inspired by Thompson sampling and provide its theoretical guarantee. Specifically, we adopt Bellman eluder (BE) dimension as the complexity measure of the function class and establish $O(\sqrt{T})$ regret bound for the proposed algorithm with other multiplicative factor depending on the horizon, BE dimension and the $log$-bracketing number of the function class. Further, in the analysis, we first establish the concentration-type inequality of the squared Bellman error bound based on the maximum likelihood estimator (MLE) generalization bound, which plays the crucial rules in obtaining the eluder-type regret bound and may be of independent interest.
- Abstract(参考訳): 人間のフィードバックからの強化学習 (RLHF) は, 大規模言語モデル (LLM) と人間の嗜好の整合を実証的に達成し, 理論的観点からRLHFアルゴリズムの統計的効率を研究することが重要である。
本研究では,学習過程における嗜好データを明らかにするオンラインRLHFの設定と,行動値関数の近似について考察する。
我々はトンプソンサンプリングにインスパイアされたオンラインRLHFのためのモデルフリー後部サンプリングアルゴリズムを設計し、その理論的保証を提供する。
具体的には、関数クラスの複雑性測度としてベルマン・エルダー(BE)次元を採用し、関数クラスの水平、BE次元、および$log$-bracketing数に依存する他の乗法係数を持つ提案アルゴリズムに対して、$O(\sqrt{T})$ regret boundを確立する。
さらに、解析において、まず、最大極大推定器(MLE)一般化境界に基づく正方形ベルマン誤差の濃度型不等式を確立する。
関連論文リスト
- Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning [3.30671592417223]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデルの出力と人間の嗜好を整合させる重要な手法として登場した。
既存のRLHFアルゴリズムの多くはBradley-Terryモデルを使用しており、これは人間の好みに関する仮定に依存しており、現実世界の判断の複雑さや変動性を反映していない。
そこで我々は,そのような報酬モデルの不特定条件下での既存手法の性能向上のための頑健なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-03T16:16:35Z) - Avoiding $\mathbf{exp(R_{max})}$ scaling in RLHF through Preference-based Exploration [20.76451379043945]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)アライメントのための重要な手法として登場した。
本稿では、オンラインRLHFの設定と、サンプル効率の向上に焦点をあてる。
論文 参考訳(メタデータ) (2025-02-02T04:40:04Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - RRHF: Rank Responses to Align Language Models with Human Feedback
without tears [69.68672043223249]
InstructGPTは、SFT(Supervised Fine-Tuning)、報酬モデルトレーニング、PPO(Proximal Policy Optimization)など、いくつかの段階を通じてRLHFを実装している。
本稿では,条件付き確率の対数を用いて,異なるソースからのサンプル応答をスコアするRRHFという新しい学習パラダイムを提案する。
我々は、Helpful and Harmlessデータセット上でRRHFを評価し、報酬モデルスコアと人間ラベルによるPPOと同等のアライメント性能を示す。
論文 参考訳(メタデータ) (2023-04-11T15:53:40Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。