論文の概要: How to Query Human Feedback Efficiently in RL?
- arxiv url: http://arxiv.org/abs/2305.18505v1
- Date: Mon, 29 May 2023 15:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 20:07:27.008093
- Title: How to Query Human Feedback Efficiently in RL?
- Title(参考訳): RLでヒューマンフィードバックを効率的にクエリする方法
- Authors: Wenhao Zhan, Masatoshi Uehara, Wen Sun, Jason D. Lee
- Abstract要約: 強化学習とヒューマンフィードバック(Reinforcement Learning with Human Feedback, RLHF)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本研究では,隠れた報酬関数の正確な学習を可能にする探索軌道取得のための効率的なサンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 60.00237613646686
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Reinforcement Learning with Human Feedback (RLHF) is a paradigm in which an
RL agent learns to optimize a task using pair-wise preference-based feedback
over trajectories, rather than explicit reward signals. While RLHF has
demonstrated practical success in fine-tuning language models, existing
empirical work does not address the challenge of how to efficiently sample
trajectory pairs for querying human feedback. In this study, we propose an
efficient sampling approach to acquiring exploratory trajectories that enable
accurate learning of hidden reward functions before collecting any human
feedback. Theoretical analysis demonstrates that our algorithm requires less
human feedback for learning the optimal policy under preference-based models
with linear parameterization and unknown transitions, compared to the existing
literature. Specifically, our framework can incorporate linear and low-rank
MDPs. Additionally, we investigate RLHF with action-based comparison feedback
and introduce an efficient querying algorithm tailored to this scenario.
- Abstract(参考訳): 強化学習とヒューマンフィードバック(Reinforcement Learning with Human Feedback, RLHF)は、RLエージェントが、明示的な報酬信号ではなく、軌道上のペア指向のフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
rlhfは微調整言語モデルの実用的成功を証明しているが、既存の経験的研究は、人間のフィードバックをクエリするために軌道ペアを効率的にサンプリングする方法の課題に対処していない。
本研究では,人間のフィードバックを収集する前に隠れた報酬関数の正確な学習を可能にする探索軌道取得のための効率的なサンプリング手法を提案する。
理論的解析により,線形パラメータ化と未知遷移を伴う選好モデルの下での最適方針学習において,既存の文献と比較して,アルゴリズムが人間からのフィードバックを少なくすることを示した。
具体的には、線形および低ランクのMDPを組み込むことができる。
さらに,アクションベース比較フィードバックによるrlhfの調査を行い,このシナリオに合わせた効率的なクエリアルゴリズムを提案する。
関連論文リスト
- UDQL: Bridging The Gap between MSE Loss and The Optimal Value Function in Offline Reinforcement Learning [10.593924216046977]
まず,MSEによる過大評価現象を理論的に解析し,過大評価誤差の理論的上限を与える。
最後に、過小評価演算子と拡散ポリシーモデルに基づくオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T14:37:42Z) - A Unified Linear Programming Framework for Offline Reward Learning from Human Demonstrations and Feedback [6.578074497549894]
Inverse Reinforcement Learning (IRL) と Reinforcement Learning from Human Feedback (RLHF) は報酬学習における重要な方法論である。
本稿では,オフライン報酬学習に適した新しい線形プログラミング(LP)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-20T23:59:26Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning [73.80728148866906]
準メトリック強化学習(QRL)は、準メトリックモデルを用いて最適な値関数を学習する新しいRL法である。
オフラインおよびオンラインの目標達成ベンチマークでは、QRLはサンプル効率とパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2023-04-03T17:59:58Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。