論文の概要: Sample Complexity Reduction via Policy Difference Estimation in Tabular Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.06856v1
- Date: Tue, 11 Jun 2024 00:02:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 19:46:28.865561
- Title: Sample Complexity Reduction via Policy Difference Estimation in Tabular Reinforcement Learning
- Title(参考訳): 表層強化学習における政策差分推定によるサンプル複雑度低減
- Authors: Adhyyan Narang, Andrew Wagenmaker, Lillian Ratliff, Kevin Jamieson,
- Abstract要約: バンディットにおける既存の研究は、個々の政策の行動の違いを見積もることによって、最良の政策を特定できることを示している。
しかし、RLの最もよく知られた複雑さはこの利点を生かせず、代わりにそれぞれのポリシーの振舞いを直接見積もる。
単一の参照ポリシの振る舞いを見積もることができれば、他のポリシが参照ポリシからどのように逸脱するかを見積もるだけで十分である。
- 参考スコア(独自算出の注目度): 8.182196998385582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the non-asymptotic sample complexity for the pure exploration problem in contextual bandits and tabular reinforcement learning (RL): identifying an epsilon-optimal policy from a set of policies with high probability. Existing work in bandits has shown that it is possible to identify the best policy by estimating only the difference between the behaviors of individual policies, which can be substantially cheaper than estimating the behavior of each policy directly. However, the best-known complexities in RL fail to take advantage of this and instead estimate the behavior of each policy directly. Does it suffice to estimate only the differences in the behaviors of policies in RL? We answer this question positively for contextual bandits but in the negative for tabular RL, showing a separation between contextual bandits and RL. However, inspired by this, we show that it almost suffices to estimate only the differences in RL: if we can estimate the behavior of a single reference policy, it suffices to only estimate how any other policy deviates from this reference policy. We develop an algorithm which instantiates this principle and obtains, to the best of our knowledge, the tightest known bound on the sample complexity of tabular RL.
- Abstract(参考訳): 本稿では,文脈的包帯および表層強化学習(RL)における純粋探索問題に対する非漸近的サンプル複雑性について検討する。
バンディットにおける既存の研究は、個々の政策の行動の違いのみを推定することで、それぞれの政策の行動を直接推定するよりもはるかに安価に、最良の政策を特定できることを示した。
しかし、RLの最もよく知られた複雑さはこの利点を生かせず、代わりにそれぞれのポリシーの振舞いを直接見積もる。
RLにおける政策の行動の違いだけを見積もるだけで十分だろうか?
文脈的包帯については肯定的だが,表層RLでは否定的であり,文脈的包帯とRLとの分離が示されている。
しかし、このことから着想を得た結果、RLの差のみを推定することがほぼ十分であることが示され、単一の参照ポリシの振る舞いを推定できれば、他のポリシが基準ポリシから逸脱するかを見積もるだけで十分である。
我々は,この原理を定式化し,この知識を最大限に活用するために,表状RLの標本複雑性に最も強く依存するアルゴリズムを開発した。
関連論文リスト
- Statistical Analysis of Policy Space Compression Problem [54.1754937830779]
政策探索手法は強化学習において重要であり、継続的な状態反応と部分的に観察可能な問題に対処するための枠組みを提供する。
政策圧縮による政策空間の削減は、学習プロセスを加速するための強力で報酬のないアプローチとして現れます。
この手法は方針空間をより小さく代表的な集合に凝縮し、元の効果のほとんどを維持している。
論文 参考訳(メタデータ) (2024-11-15T02:46:55Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Minimax Off-Policy Evaluation for Multi-Armed Bandits [58.7013651350436]
有界報酬を用いたマルチアームバンディットモデルにおけるオフポリシー評価の問題点について検討する。
3つの設定でミニマックスレート・オプティマティックな手順を開発。
論文 参考訳(メタデータ) (2021-01-19T18:55:29Z) - Off-Policy Evaluation of Slate Policies under Bayes Risk [70.10677881866047]
スレートのスロット上でロギングポリシーが因子化される典型的なケースにおいて、スレート帯のオフポリシ評価の問題について検討する。
PIによるリスク改善はスロット数とともに線形に増加し、スロットレベルの分岐の集合の算術平均と調和平均とのギャップによって線形に増加することを示す。
論文 参考訳(メタデータ) (2021-01-05T20:07:56Z) - Understanding the Pathologies of Approximate Policy Evaluation when
Combined with Greedification in Reinforcement Learning [11.295757620340899]
値関数近似を用いた強化学習の理論は、基本的に不完全である。
これまでの研究は、RLアルゴリズムで生じる様々な病理的行動を特定しており、これは政治上の評価と欲求化を近似するものである。
我々は、ポリシーの振動と複数の固定点に加えて、同じ基本的な問題が、与えられた近似に対する最悪のポリシーに収束する可能性があることを示す例を示す。
論文 参考訳(メタデータ) (2020-10-28T22:57:57Z) - Expert-Supervised Reinforcement Learning for Offline Policy Learning and
Evaluation [21.703965401500913]
本稿では,オフライン政策学習のための不確実性定量化手法であるExpert-Supervised RL (ESRL) フレームワークを提案する。
具体的には,1)仮説テストによる安全かつ最適なポリシの学習,2)ESRLはアプリケーションコンテキストに合わせて異なるレベルのリスク逆実装を可能にし,3)後続分布を通してESRLのポリシーを解釈する方法を提案する。
論文 参考訳(メタデータ) (2020-06-23T17:43:44Z) - Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。
実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文 参考訳(メタデータ) (2020-02-26T23:00:27Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。