論文の概要: Towards Efficient Online Exploration for Reinforcement Learning with Human Feedback
- arxiv url: http://arxiv.org/abs/2509.22633v1
- Date: Fri, 26 Sep 2025 17:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.631216
- Title: Towards Efficient Online Exploration for Reinforcement Learning with Human Feedback
- Title(参考訳): 人的フィードバックによる強化学習のための効果的なオンライン探索に向けて
- Authors: Gen Li, Yuling Yan,
- Abstract要約: 人間のフィードバックによる強化学習は、大きな言語モデルと人間の好みを整合させる中心的なパラダイムとして現れてきた。
オンラインRLHFの探索原理について検討し、報酬モデルとポリシーの両方をデータ効率のよい方法で洗練しようとする。
そこで本研究では,報酬差の不確実性を抑えるために,嗜好クエリを指示する新たな探索手法を提案する。
- 参考スコア(独自算出の注目度): 12.158181906895186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning with human feedback (RLHF), which learns a reward model from human preference data and then optimizes a policy to favor preferred responses, has emerged as a central paradigm for aligning large language models (LLMs) with human preferences. In this paper, we investigate exploration principles for online RLHF, where one seeks to adaptively collect new preference data to refine both the reward model and the policy in a data-efficient manner. By examining existing optimism-based exploration algorithms, we identify a drawback in their sampling protocol: they tend to gather comparisons that fail to reduce the most informative uncertainties in reward differences, and we prove lower bounds showing that such methods can incur linear regret over exponentially long horizons. Motivated by this insight, we propose a new exploration scheme that directs preference queries toward reducing uncertainty in reward differences most relevant to policy improvement. Under a multi-armed bandit model of RLHF, we establish regret bounds of order $T^{(\beta+1)/(\beta+2)}$, where $\beta>0$ is a hyperparameter that balances reward maximization against mitigating distribution shift. To our knowledge, this is the first online RLHF algorithm with regret scaling polynomially in all model parameters.
- Abstract(参考訳): 人間の嗜好データから報酬モデルを学び、好意的な反応を優先するポリシーを最適化するRLHF(Reinforcement Learning with Human feedback)は、大規模言語モデル(LLM)を人間の嗜好と整合させる中心的パラダイムとして登場した。
本稿では、オンラインRLHFの探索原理について検討し、報酬モデルとポリシーの両方をデータ効率よく洗練するために、新しい選好データを適応的に収集することを試みる。
既存の楽観主義に基づく探索アルゴリズムを検証することにより、サンプリングプロトコルの欠点を識別し、報酬差の最も情報に富む不確実性を減少させるのに失敗する比較を収集し、指数関数的に長い地平線上で線形後悔を引き起こすことができることを示す。
そこで本研究では,政策改善に最も関係のある報酬差の不確実性を減らすために,嗜好クエリを誘導する新たな探索手法を提案する。
RLHFの多重武装バンディットモデルの下では、次数$T^{(\beta+1)/(\beta+2)}$の後悔境界を確立する。
我々の知る限り、これは全てのモデルパラメータで多項式スケーリングを後悔するオンラインRLHFアルゴリズムとしては初めてのものである。
関連論文リスト
- Active RLHF via Best Policy Learning from Trajectory Preference Feedback [15.799929216215672]
嗜好型強化学習(PbRL)における最良政策識別の問題に対処する。
本稿では,Top-Two Thompson Smplingにヒントを得た新しいアルゴリズムであるPosterior Smpling for Preference Learning(mathsfPSPL$)を提案する。
論文 参考訳(メタデータ) (2025-01-31T03:55:10Z) - Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [15.038210624870656]
リワード推論は、ヒューマンフィードバックパイプラインからの強化学習における重要な中間ステップである。
本稿では,帯域幅を超える一般RL問題と決定論的MDP帯域幅,Bradley-Terryモデルを超える一般選好モデルについて,報酬推論のない2つのRLHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - Contrastive Preference Learning: Learning from Human Feedback without RL [71.77024922527642]
本稿では、報酬関数を学習せずに好みから最適なポリシーを学習するアルゴリズムであるContrastive Preference Learning (CPL)を紹介する。
CPLは完全に非政治的であり、単純なコントラスト目的のみを使用し、任意のMDPに適用できる。
論文 参考訳(メタデータ) (2023-10-20T16:37:56Z) - Data Driven Reward Initialization for Preference based Reinforcement
Learning [20.13307800821161]
選好に基づく強化学習(PbRL)法は、ループ内の人間からの2進フィードバック(HiL)をクエリされた軌道対上で利用し、報酬モデルを学ぶ。
実験のランダムな種に敏感な報酬モデルにおける高い変動性の問題について検討する。
論文 参考訳(メタデータ) (2023-02-17T07:07:07Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。