論文の概要: Best Policy Learning from Trajectory Preference Feedback
- arxiv url: http://arxiv.org/abs/2501.18873v3
- Date: Thu, 02 Oct 2025 21:07:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 14:21:29.67459
- Title: Best Policy Learning from Trajectory Preference Feedback
- Title(参考訳): 軌道優先フィードバックからの最良の政策学習
- Authors: Akhil Agnihotri, Rahul Jain, Deepak Ramachandran, Zheng Wen,
- Abstract要約: 推論ベースの強化学習(PbRL)は、より堅牢な代替手段を提供する。
本稿では, PbRLにおける最適政策識別問題について検討し, 生成モデルの学習後最適化を動機とした。
本稿では,Top-Two Thompson Smplingにヒントを得た新しいアルゴリズムであるPosterior Smpling for Preference Learning(mathsfPSPL$)を提案する。
- 参考スコア(独自算出の注目度): 11.896067099790962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has emerged as a powerful approach for aligning generative models, but its reliance on learned reward models makes it vulnerable to mis-specification and reward hacking. Preference-based Reinforcement Learning (PbRL) offers a more robust alternative by directly leveraging noisy binary comparisons over trajectories. We study the best policy identification problem in PbRL, motivated by post-training optimization of generative models, for example, during multi-turn interactions. Learning in this setting combines an offline preference dataset--potentially biased or out-of-distribution and collected from a rater of subpar 'competence'--with online pure exploration, making systematic online learning essential. To this end, we propose Posterior Sampling for Preference Learning ($\mathsf{PSPL}$), a novel algorithm inspired by Top-Two Thompson Sampling that maintains posteriors over the reward model and dynamics. We provide the first Bayesian simple regret guarantees for PbRL and introduce an efficient approximation that outperforms existing baselines on simulation and image generation benchmarks.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF)は、生成モデルを調整するための強力なアプローチとして登場したが、学習した報酬モデルに依存しているため、誤特定や報酬ハッキングに弱い。
優先度に基づく強化学習(PbRL)は、トラジェクトリよりもノイズの多いバイナリ比較を直接活用することで、より堅牢な代替手段を提供する。
我々は, PbRL における最適政策識別問題について検討し, 複数ターン相互作用における生成モデルの学習後最適化を動機とした。
この環境での学習は、オフラインの選好データセット – 潜在的に偏りがあるか、あるいはアウト・オブ・ディストリビューション – と、サブパー「コンピテンス」のレーダから収集される – を、オンライン純粋探索と組み合わせて、体系的なオンライン学習が不可欠である。
そこで本稿では,Top-Two Thompson Sampling にヒントを得た新しいアルゴリズムである Posterior Sampling for Preference Learning (\mathsf{PSPL}$) を提案する。
我々は、PbRLに対する最初の単純な後悔の保証を提供し、シミュレーションや画像生成ベンチマークにおいて既存のベースラインを上回る効率のよい近似を導入する。
関連論文リスト
- Active Human Feedback Collection via Neural Contextual Dueling Bandits [84.7608942821423]
本稿では,人間の嗜好フィードバックを抽出するアルゴリズムであるNeural-ADBを提案する。
優先フィードバックがBradley-Terry-Luceモデルに従うと、Neural-ADBが学習したポリシーの最悪の準最適差は、選好データセットが増加するにつれて、サブ線形速度で減少することを示す。
論文 参考訳(メタデータ) (2025-04-16T12:16:10Z) - Provably Efficient Online RLHF with One-Pass Reward Modeling [59.30310692855397]
本稿では,過去のデータを保存する必要がなく,一定時間で計算できるワンパス報酬モデリング手法を提案する。
提案手法は,統計的および計算効率の両面で向上することを示す理論的保証を提供する。
我々はUltrafeedback-binarizedおよびMixture2データセット上でLlama-3-8B-InstructとQwen2.5-7B-Instructモデルを用いて実験を行った。
論文 参考訳(メタデータ) (2025-02-11T02:36:01Z) - Optimal Design for Reward Modeling in RLHF [83.3614658277817]
我々は,人間からの強化学習における報酬訓練モデルを定式化する。
有効なデータセットの選択は、単純な後悔の最小化タスクとしてフレーム化します。
適切な前提の下では、単純な後悔に縛られる。
論文 参考訳(メタデータ) (2024-10-22T14:36:44Z) - Listwise Reward Estimation for Offline Preference-based Reinforcement Learning [20.151932308777553]
リストワイズ・リワード推定(LiRE)は、オフラインの推論に基づく強化学習(PbRL)のための新しいアプローチである。
LiRE は Ranked List of Trajectories (RLT) を構築することで既存の PbRL メソッドに基づいている。
実験では,フィードバック数やフィードバックノイズに関して,緩やかなフィードバック予算や頑健さを享受しながらも,LiREの優位性を実証した。
論文 参考訳(メタデータ) (2024-08-08T03:18:42Z) - Hindsight Preference Learning for Offline Preference-based Reinforcement Learning [22.870967604847458]
オフライン選好に基づく強化学習(RL)は、オフラインデータセットから選択された軌道セグメントのペア間の人間の選好を使ってポリシーを最適化することに焦点を当てる。
本研究では,軌道セグメントの今後の成果を条件とした報酬を用いて,人間の嗜好をモデル化する。
提案手法であるHindsight Preference Learning (HPL) は,大規模な未ラベルデータセットで利用可能な膨大なトラジェクトリデータをフル活用することにより,クレジットの割り当てを容易にする。
論文 参考訳(メタデータ) (2024-07-05T12:05:37Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Online Bandit Learning with Offline Preference Data [15.799929216215672]
ノイズの多い選好フィードバックを持つオフラインデータセットでウォームスタートできるオンライン学習のための後部サンプリングアルゴリズムを提案する。
生成した専門家の能力」をモデル化することで、そのようなデータセットを最も効果的に利用できることを示す。
論文 参考訳(メタデータ) (2024-06-13T20:25:52Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - Dataset Reset Policy Optimization for RLHF [47.794925435175365]
Reinforcement Learning from Human Preference-based feedbackは、微調整生成モデルの一般的なパラダイムである。
オフラインの選好データセットから報酬モデルを学習し、学習した報奨モデルを最適化するためにオンラインRLを実行する。
本稿では,リセットのアイデアを活用することで,証明可能な保証付きRLHFアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-12T14:25:49Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Sample Complexity of Preference-Based Nonparametric Off-Policy
Evaluation with Deep Networks [58.469818546042696]
我々は、OPEのサンプル効率を人間の好みで研究し、その統計的保証を確立する。
ReLUネットワークのサイズを適切に選択することにより、マルコフ決定過程において任意の低次元多様体構造を活用できることが示される。
論文 参考訳(メタデータ) (2023-10-16T16:27:06Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。