論文の概要: Optimistic Policy Optimization with Bandit Feedback
- arxiv url: http://arxiv.org/abs/2002.08243v2
- Date: Thu, 18 Jun 2020 17:13:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 13:09:01.301286
- Title: Optimistic Policy Optimization with Bandit Feedback
- Title(参考訳): バンディットフィードバックによる楽観的政策最適化
- Authors: Yonathan Efroni, Lior Shani, Aviv Rosenberg and Shie Mannor
- Abstract要約: 我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
- 参考スコア(独自算出の注目度): 70.75568142146493
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policy optimization methods are one of the most widely used classes of
Reinforcement Learning (RL) algorithms. Yet, so far, such methods have been
mostly analyzed from an optimization perspective, without addressing the
problem of exploration, or by making strong assumptions on the interaction with
the environment. In this paper we consider model-based RL in the tabular
finite-horizon MDP setting with unknown transitions and bandit feedback. For
this setting, we propose an optimistic trust region policy optimization (TRPO)
algorithm for which we establish $\tilde O(\sqrt{S^2 A H^4 K})$ regret for
stochastic rewards. Furthermore, we prove $\tilde O( \sqrt{ S^2 A H^4 } K^{2/3}
) $ regret for adversarial rewards. Interestingly, this result matches previous
bounds derived for the bandit feedback case, yet with known transitions. To the
best of our knowledge, the two results are the first sub-linear regret bounds
obtained for policy optimization algorithms with unknown transitions and bandit
feedback.
- Abstract(参考訳): ポリシー最適化手法は強化学習(RL)アルゴリズムの最も広く使われているクラスの一つである。
しかし、これまでのところ、そのような手法は主に最適化の観点から分析されており、探索の問題に対処せず、環境との相互作用について強い仮定をすることでも解決できる。
本稿では,未知の遷移と帯域幅フィードバックを持つ表型有限ホライゾンMDPにおけるモデルベースRLについて考察する。
そこで我々は, 確率的報酬に対して, $\tilde O(\sqrt{S^2 A H^4 K})$ regretを設定できる楽観的信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
さらに、$\tilde o( \sqrt{ s^2 a h^4 } k^{2/3} ) $ regret for adversarial rewards を証明する。
興味深いことに、この結果はバンディットフィードバックケースで導かれる以前の境界と一致するが、既知の遷移がある。
我々の知る限り、2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムで得られた最初のサブ線形後悔境界である。
関連論文リスト
- Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs [63.47351876442425]
本研究は,完全情報フィードバックの下で,相変わらずの相変わらずの線形混合MDPについて検討した。
本稿では,占領率に基づく手法と政策に基づく手法の利点を組み合わせた新しいアルゴリズムを提案する。
我々のアルゴリズムは$widetildemathcalO(d sqrtH3 K + sqrtHK(H + barP_K$)$ dynamic regret, ここで$d$は特徴次元である。
論文 参考訳(メタデータ) (2024-11-05T13:55:52Z) - Rate-Optimal Policy Optimization for Linear Markov Decision Processes [65.5958446762678]
最安値の$widetilde O (sqrt K)$ regret, $K$はエピソード数を表す。
我々の研究は、バンディットフィードバックのある設定において最適な収束率(w.r.t.$K$)を確立する最初のものである。
現在、最適なレート保証を持つアルゴリズムは知られていない。
論文 参考訳(メタデータ) (2023-08-28T15:16:09Z) - Best of Both Worlds Policy Optimization [33.13041034490332]
本稿では,正則化器,探索ボーナス,学習率を適切に設計することにより,損失が相反する場合には,より好意的なポリログ$(T)=後悔が得られることを示す。
政策最適化のために、ギャップ依存のポリログ$(T)$後悔境界が示されるのはこれが初めてである。
論文 参考訳(メタデータ) (2023-02-18T19:46:11Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Pessimistic Off-Policy Optimization for Learning to Rank [13.733459243449634]
オフ政治学習は、ポリシーをデプロイせずに最適化するためのフレームワークである。
レコメンデーションシステムでは、ログデータの不均衡のため、これは特に難しい。
我々は、ランク付け学習のための悲観的非政治最適化について研究する。
論文 参考訳(メタデータ) (2022-06-06T12:58:28Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary
MDPs [45.6318149525364]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
本稿では,$underlinetextp$eriodically $underlinetextr$estarted $underlinetexto$ptimistic $underlinetextp$olicy $underlinetexto$ptimization algorithm (PROPO)を提案する。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - A Generalised Inverse Reinforcement Learning Framework [24.316047317028147]
逆強化学習(英: inverse Reinforcement Learning、IRL)とは、観測された軌跡に基づいて、あるMDPベースの未知のコスト関数を推定することである。
我々は、(最大エントロピー)IRL問題の修正をもたらす将来の状態により多くの重みを与える代替の訓練損失を導入する。
私たちが考案したアルゴリズムは、複数のOpenAIジム環境において、既製のものよりも優れたパフォーマンス(および類似のトラクタビリティ)を示しました。
論文 参考訳(メタデータ) (2021-05-25T10:30:45Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。