論文の概要: Provable Reward-Agnostic Preference-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.18505v2
- Date: Fri, 29 Sep 2023 18:38:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 14:22:52.731387
- Title: Provable Reward-Agnostic Preference-Based Reinforcement Learning
- Title(参考訳): 報酬非依存的選好に基づく強化学習
- Authors: Wenhao Zhan, Masatoshi Uehara, Wen Sun, Jason D. Lee
- Abstract要約: PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 67.07008558942792
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Preference-based Reinforcement Learning (PbRL) is a paradigm in which an RL
agent learns to optimize a task using pair-wise preference-based feedback over
trajectories, rather than explicit reward signals. While PbRL has demonstrated
practical success in fine-tuning language models, existing theoretical work
focuses on regret minimization and fails to capture most of the practical
frameworks. In this study, we fill in such a gap between theoretical PbRL and
practical algorithms by proposing a theoretical reward-agnostic PbRL framework
where exploratory trajectories that enable accurate learning of hidden reward
functions are acquired before collecting any human feedback. Theoretical
analysis demonstrates that our algorithm requires less human feedback for
learning the optimal policy under preference-based models with linear
parameterization and unknown transitions, compared to the existing theoretical
literature. Specifically, our framework can incorporate linear and low-rank
MDPs with efficient sample complexity. Additionally, we investigate
reward-agnostic RL with action-based comparison feedback and introduce an
efficient querying algorithm tailored to this scenario.
- Abstract(参考訳): PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、明示的な報酬信号ではなく、軌道上のペアワイズに基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
PbRLは微調整言語モデルで実用的成功をおさめたが、既存の理論的研究は後悔の最小化に重点を置いており、実践的なフレームワークのほとんどを捉えていない。
本研究では,人間のフィードバックを収集する前に,隠れた報酬関数の正確な学習を可能にする探索軌道が取得される理論的な報酬非依存PbRLフレームワークを提案することにより,理論的PbRLと実用的なアルゴリズムのギャップを埋める。
理論的解析により,線形パラメータ化と未知遷移を伴う選好モデルの下での最適方針の学習には,既存の理論文献と比較して,人間のフィードバックが少なくなることが示された。
具体的には,線形および低ランクmdpを効率的なサンプル複雑性に組み込むことができる。
さらに,アクションベース比較フィードバックによる報酬非依存rlを調査し,このシナリオに合わせた効率的な問合せアルゴリズムを提案する。
関連論文リスト
- A Theoretical Analysis of Nash Learning from Human Feedback under
General KL-Regularized Preference [19.205014621289678]
我々は、最近提案された学習パラダイム、NLHF(Nash Learning from Human feedback)の理論的洞察を提供する。
学習の目的は、競合するポリシーよりも好まれる応答を一貫して生成するポリシーを見つけることである。
この結果は,NLHFパラダイムと従来のRL理論を結びつけ,一般の嗜好の下での報酬モデルなし学習の可能性を検証する。
論文 参考訳(メタデータ) (2024-02-11T21:44:21Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and
Practice for RLHF under KL-Constraint [59.18441633176669]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程の理論的枠組みについて検討する。
我々は、標準的な数学的定式化、RLHFの逆KL正規化文脈帯域を考える。
我々は、オフライン、オンライン、ハイブリッドの3つの異なる設定でその振る舞いを調査し、有限サンプル理論的保証を持つ効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning [73.80728148866906]
準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。
オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2023-04-03T17:59:58Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - PC-MLP: Model-based Reinforcement Learning with Policy Cover Guided
Exploration [15.173628100049129]
本研究では,カーネル化レギュレータ(KNR)と線形マルコフ決定過程(MDP)のモデルベースアルゴリズムについて検討する。
両方のモデルに対して、我々のアルゴリズムはサンプルの複雑さを保証し、プランニングオラクルへのアクセスのみを使用する。
また,提案手法は報酬のない探索を効率的に行うことができる。
論文 参考訳(メタデータ) (2021-07-15T15:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。