論文の概要: Preference-based Reinforcement Learning with Finite-Time Guarantees
- arxiv url: http://arxiv.org/abs/2006.08910v2
- Date: Fri, 23 Oct 2020 20:24:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-20 18:44:46.749740
- Title: Preference-based Reinforcement Learning with Finite-Time Guarantees
- Title(参考訳): 有限時間保証による選好に基づく強化学習
- Authors: Yichong Xu, Ruosong Wang, Lin F. Yang, Aarti Singh and Artur Dubrawski
- Abstract要約: 嗜好に基づく強化学習(PbRL)は、従来の強化学習における報酬価値を代替し、目標とする目的に対する人間の意見をよりよく提示する。
応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。
一般PbRL問題に対する最初の有限時間解析を提案する。
- 参考スコア(独自算出の注目度): 76.88632321436472
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference-based Reinforcement Learning (PbRL) replaces reward values in
traditional reinforcement learning by preferences to better elicit human
opinion on the target objective, especially when numerical reward values are
hard to design or interpret. Despite promising results in applications, the
theoretical understanding of PbRL is still in its infancy. In this paper, we
present the first finite-time analysis for general PbRL problems. We first show
that a unique optimal policy may not exist if preferences over trajectories are
deterministic for PbRL. If preferences are stochastic, and the preference
probability relates to the hidden reward values, we present algorithms for
PbRL, both with and without a simulator, that are able to identify the best
policy up to accuracy $\varepsilon$ with high probability. Our method explores
the state space by navigating to under-explored states, and solves PbRL using a
combination of dueling bandits and policy search. Experiments show the efficacy
of our method when it is applied to real-world problems.
- Abstract(参考訳): 選好ベースの強化学習(pbrl)は、従来の強化学習における報奨値を置き換えることで、特に数値的な報奨値の設計や解釈が難しい場合に、目標とする目標に対する人間の意見をよりよく理解する。
応用の有望な結果にもかかわらず、PbRLの理論的理解はまだ初期段階にある。
本稿では,PbRL問題に対する最初の有限時間解析について述べる。
まず,PbRL に対して軌道上の選好が決定論的であれば,一意の最適政策は存在しないことを示す。
選好が確率的であり、選好確率が隠された報奨値に関係している場合、シミュレーターと非シミュレーターの両方でPbRLのアルゴリズムを示し、高い確率で$\varepsilon$の最良のポリシーを特定できる。
提案手法は,探索されていない状態にナビゲートすることで状態空間を探索し,デュエルバンドとポリシーサーチを組み合わせたPbRLを解く。
実世界問題に適用した場合,本手法の有効性を示す実験を行った。
関連論文リスト
- Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning [55.65738319966385]
我々は、新しいオンラインアルゴリズム、反復的ナッシュポリシー最適化(INPO)を提案する。
従来の方法とは異なり、INPOは個々の応答に対する期待される勝利率を推定する必要性を回避している。
LLaMA-3-8BベースのSFTモデルで、INPOはAlpacaEval 2.0で42.6%、Arena-Hardで37.8%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-06-30T08:00:34Z) - RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences [23.414135977983953]
嗜好に基づく強化学習(PbRL)は、報酬信号として人間の嗜好を活用することにより、報酬工学の必要性を回避する。
雑音の選好から効果的な報酬学習のための頑健なPbRLアルゴリズムであるRIMEを提案する。
論文 参考訳(メタデータ) (2024-02-27T07:03:25Z) - Is RLHF More Difficult than Standard RL? [31.972393805014903]
ヒューマンフィードバック(RLHF)からの強化学習は優先信号から学習し、標準強化学習(RL)は報酬信号から直接学習する。
理論的には、幅広い選好モデルに対して、我々は、報酬に基づくRLのアルゴリズムと技法を直接的に解き、少ないか、余分なコストで解決できることを証明している。
論文 参考訳(メタデータ) (2023-06-25T03:18:15Z) - Direct Preference-based Policy Optimization without Reward Modeling [25.230992130108767]
嗜好に基づく強化学習(PbRL)は、RLエージェントが嗜好から学習できるアプローチである。
報酬モデリングを必要とせずに好みから直接学習するPbRLアルゴリズムを提案する。
提案アルゴリズムは,地味な報奨情報を用いて学習するオフラインRL手法を超越することを示す。
論文 参考訳(メタデータ) (2023-01-30T12:51:13Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z) - B-Pref: Benchmarking Preference-Based Reinforcement Learning [84.41494283081326]
我々は、好みベースのRL用に特別に設計されたベンチマークであるB-Prefを紹介する。
このようなベンチマークにおける重要な課題は、候補アルゴリズムをすばやく評価する機能を提供することだ。
B-Prefは、幅広い不合理性を持つ教師をシミュレートすることでこれを緩和する。
論文 参考訳(メタデータ) (2021-11-04T17:32:06Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。