論文の概要: Non-Markovian policies occupancy measures
- arxiv url: http://arxiv.org/abs/2205.13950v1
- Date: Fri, 27 May 2022 12:49:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 15:19:20.763092
- Title: Non-Markovian policies occupancy measures
- Title(参考訳): 非マルコフ政策占有対策
- Authors: Romain Laroche, Remi Tachet des Combes, Jacob Buckman
- Abstract要約: 強化学習(RL)における研究の中心的対象はマルコフの政策であり、エージェントの行動は記憶のない確率分布から選択される。
我々の主な貢献は、マルコフ的でない政策の占有度が同値にマルコフ的政策によって生成されることを証明することである。
この結果により、マルコフポリシークラスに関する定理は、その非マルコフポリシークラスに直接拡張できる。
- 参考スコア(独自算出の注目度): 23.855882145667767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A central object of study in Reinforcement Learning (RL) is the Markovian
policy, in which an agent's actions are chosen from a memoryless probability
distribution, conditioned only on its current state. The family of Markovian
policies is broad enough to be interesting, yet simple enough to be amenable to
analysis. However, RL often involves more complex policies: ensembles of
policies, policies over options, policies updated online, etc. Our main
contribution is to prove that the occupancy measure of any non-Markovian
policy, i.e., the distribution of transition samples collected with it, can be
equivalently generated by a Markovian policy.
This result allows theorems about the Markovian policy class to be directly
extended to its non-Markovian counterpart, greatly simplifying proofs, in
particular those involving replay buffers and datasets. We provide various
examples of such applications to the field of Reinforcement Learning.
- Abstract(参考訳): 強化学習(RL)における研究の中心的対象はマルコフの政策であり、エージェントの行動は記憶のない確率分布から選択され、現在の状態にのみ条件付けられる。
マルコフの政策の族は興味をそそられるほど広く、分析に適するほど単純である。
しかしながら、RLは、ポリシーのアンサンブル、オプションに対するポリシー、オンラインで更新されたポリシーなど、より複雑なポリシーを含むことが多い。
我々の主な貢献は、マルコフの政策、すなわちそれで収集された遷移サンプルの分布の占有度が、マルコフの政策によって等価に生成できることを証明することである。
この結果により、マルコフポリシークラスに関する定理は、非マルコフポリシークラスに直接拡張することができ、特にリプレイバッファやデータセットを含む証明を大幅に単純化することができる。
このような応用例を強化学習の分野に適用する。
関連論文リスト
- Sample Complexity Reduction via Policy Difference Estimation in Tabular Reinforcement Learning [8.182196998385582]
バンディットにおける既存の研究は、個々の政策の行動の違いを見積もることによって、最良の政策を特定できることを示している。
しかし、RLの最もよく知られた複雑さはこの利点を生かせず、代わりにそれぞれのポリシーの振舞いを直接見積もる。
単一の参照ポリシの振る舞いを見積もることができれば、他のポリシが参照ポリシからどのように逸脱するかを見積もるだけで十分である。
論文 参考訳(メタデータ) (2024-06-11T00:02:19Z) - Information Capacity Regret Bounds for Bandits with Mediator Feedback [55.269551124587224]
我々は,政策セットの複雑さに対する情報理論尺度として,政策セットの容量を導入する。
古典的なEXP4アルゴリズムを採用することで、ポリシーセットの容量に応じて、新たな後悔の限界を提供する。
ポリシーセットファミリの選択については、キャパシティと同じようなスケールで、ほぼ整合性の低い境界を証明します。
論文 参考訳(メタデータ) (2024-02-15T19:18:47Z) - Off-Policy Evaluation for Large Action Spaces via Policy Convolution [60.6953713877886]
ポリシ・コンボリューション(Policy Convolution)のファミリーは、アクション内の潜在構造を使用して、ログとターゲットポリシを戦略的に畳み込みます。
合成およびベンチマークデータセットの実験では、PCを使用する場合の平均二乗誤差(MSE)が顕著に改善されている。
論文 参考訳(メタデータ) (2023-10-24T01:00:01Z) - Policy Dispersion in Non-Markovian Environment [53.05904889617441]
本稿では,非マルコフ環境下での国家行動ペアの歴史から,多様な政策の学習を試みる。
まず、ポリシー埋め込みを学習するために、トランスフォーマーベースの手法を採用する。
次に,政策埋め込みを積み重ねて分散行列を構築し,多様な政策の集合を誘導する。
論文 参考訳(メタデータ) (2023-02-28T11:58:39Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Robust Batch Policy Learning in Markov Decision Processes [0.0]
マルコフ決定プロセス(MDP)の枠組みにおけるオフラインデータ駆動シーケンシャル意思決定問題について検討する。
本稿では,政策誘導定常分布を中心とした分布について,平均報酬のセットを用いて各政策を評価することを提案する。
論文 参考訳(メタデータ) (2020-11-09T04:41:21Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。