論文の概要: Steady State Analysis of Episodic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2011.06631v2
- Date: Wed, 13 Jan 2021 17:40:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 06:31:22.979240
- Title: Steady State Analysis of Episodic Reinforcement Learning
- Title(参考訳): エピソード強化学習の定常状態解析
- Authors: Huang Bojun
- Abstract要約: 本稿では,有限水平決定タスクのエピソード学習環境が,任意の行動方針の下で一意な定常状態を持つことを実証する。
エージェントの入力の限界分布は、本質的にすべてのエピソード学習過程における定常分布に収束する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proves that the episodic learning environment of every
finite-horizon decision task has a unique steady state under any behavior
policy, and that the marginal distribution of the agent's input indeed
converges to the steady-state distribution in essentially all episodic learning
processes. This observation supports an interestingly reversed mindset against
conventional wisdom: While the existence of unique steady states was often
presumed in continual learning but considered less relevant in episodic
learning, it turns out their existence is guaranteed for the latter. Based on
this insight, the paper unifies episodic and continual RL around several
important concepts that have been separately treated in these two RL
formalisms. Practically, the existence of unique and approachable steady state
enables a general way to collect data in episodic RL tasks, which the paper
applies to policy gradient algorithms as a demonstration, based on a new
steady-state policy gradient theorem. Finally, the paper also proposes and
experimentally validates a perturbation method that facilitates rapid
steady-state convergence in real-world RL tasks.
- Abstract(参考訳): 本稿では,すべての有限ホライゾン決定課題の韻律学習環境が,任意の行動方針の下で一意な定常状態を持ち,エージェントの入力の限界分布が本質的にすべての韻律学習過程における定常分布に収束することを示す。
この観察は、伝統的な知恵に対する興味深い逆の考え方を支持している: 特異な定常状態の存在は、連続的な学習では想定されるが、エピソジックな学習では考慮されていない。
この知見に基づいて、本論文は、これらの2つのRL形式において別々に扱われたいくつかの重要な概念について、エピソード的および連続的なRLを統一する。
実際、一意かつ接近可能な定常状態の存在は、新しい定常状態のポリシー勾配定理に基づいて、ポリシー勾配アルゴリズムを実証として適用した、漸進的RLタスクにおけるデータ収集の一般的な方法を可能にする。
最後に,実世界のrlタスクにおける高速定常収束を容易にする摂動法を提案し,実験的に検証する。
関連論文リスト
- Causal Temporal Representation Learning with Nonstationary Sparse Transition [22.6420431022419]
Causal Temporal Representation Learning (Ctrl) 法は、複雑な非定常時間列の時間的因果ダイナミクスを特定することを目的としている。
この研究は、人間の直感的な理解と整合したスパース遷移の仮定を採用し、理論的な観点から識別可能性の結果を提示している。
本稿では,非定常スパース遷移を用いた因果時間表現学習(CtrlNS)を提案する。
論文 参考訳(メタデータ) (2024-09-05T00:38:27Z) - Rethinking State Disentanglement in Causal Reinforcement Learning [78.12976579620165]
因果性は、根底にある状態が識別可能性によって一意に回復できることを保証するための厳密な理論的支援を提供する。
我々はこの研究ラインを再考し、RL固有のコンテキストを取り入れることで、潜在状態に対する以前の識別可能性分析における不要な仮定を低減できることを示した。
本稿では, 従来手法の複雑な構造制約を, 遷移と報酬保存の2つの簡単な制約に置き換えることにより, 一般に部分的に観測可能なマルコフ決定過程(POMDP)を提案する。
論文 参考訳(メタデータ) (2024-08-24T06:49:13Z) - Time-Constrained Robust MDPs [28.641743425443]
我々は,多因子性,相関性,時間依存障害を考慮した新しい時間制約型ロバストMDP(TC-RMDP)の定式化を導入する。
本研究では、ロバストなRLにおける一般的な仮定を再考し、より実用的で現実的なRLアプリケーションを開発するための新たな道を開く。
論文 参考訳(メタデータ) (2024-06-12T16:45:09Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - Learning Interpretable Policies in Hindsight-Observable POMDPs through
Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。
PSRLの中心は、教師なし学習と教師なし学習の融合である。
PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-02-14T16:23:23Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Offline Reinforcement Learning: Fundamental Barriers for Value Function
Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。
オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。
以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文 参考訳(メタデータ) (2021-11-21T23:22:37Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - Towards Continual Reinforcement Learning: A Review and Perspectives [69.48324517535549]
我々は,連続的強化学習(RL)に対する異なる定式化とアプローチの文献レビューの提供を目的とする。
まだ初期段階だが、継続的なrlの研究は、よりインクリメンタルな強化学習者を開発することを約束している。
これには、医療、教育、物流、ロボット工学などの分野の応用が含まれる。
論文 参考訳(メタデータ) (2020-12-25T02:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。