Fugu-MT 論文翻訳(概要): Steady State Analysis of Episodic Reinforcement Learning

論文の概要: Steady State Analysis of Episodic Reinforcement Learning

arxiv url: http://arxiv.org/abs/2011.06631v2
Date: Wed, 13 Jan 2021 17:40:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-26 06:31:22.979240
Title: Steady State Analysis of Episodic Reinforcement Learning
Title（参考訳）: エピソード強化学習の定常状態解析
Authors: Huang Bojun
Abstract要約: 本稿では,有限水平決定タスクのエピソード学習環境が,任意の行動方針の下で一意な定常状態を持つことを実証する。エージェントの入力の限界分布は、本質的にすべてのエピソード学習過程における定常分布に収束する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper proves that the episodic learning environment of every finite-horizon decision task has a unique steady state under any behavior policy, and that the marginal distribution of the agent's input indeed converges to the steady-state distribution in essentially all episodic learning processes. This observation supports an interestingly reversed mindset against conventional wisdom: While the existence of unique steady states was often presumed in continual learning but considered less relevant in episodic learning, it turns out their existence is guaranteed for the latter. Based on this insight, the paper unifies episodic and continual RL around several important concepts that have been separately treated in these two RL formalisms. Practically, the existence of unique and approachable steady state enables a general way to collect data in episodic RL tasks, which the paper applies to policy gradient algorithms as a demonstration, based on a new steady-state policy gradient theorem. Finally, the paper also proposes and experimentally validates a perturbation method that facilitates rapid steady-state convergence in real-world RL tasks.
Abstract（参考訳）: 本稿では,すべての有限ホライゾン決定課題の韻律学習環境が,任意の行動方針の下で一意な定常状態を持ち,エージェントの入力の限界分布が本質的にすべての韻律学習過程における定常分布に収束することを示す。この観察は、伝統的な知恵に対する興味深い逆の考え方を支持している: 特異な定常状態の存在は、連続的な学習では想定されるが、エピソジックな学習では考慮されていない。この知見に基づいて、本論文は、これらの2つのRL形式において別々に扱われたいくつかの重要な概念について、エピソード的および連続的なRLを統一する。実際、一意かつ接近可能な定常状態の存在は、新しい定常状態のポリシー勾配定理に基づいて、ポリシー勾配アルゴリズムを実証として適用した、漸進的RLタスクにおけるデータ収集の一般的な方法を可能にする。最後に,実世界のrlタスクにおける高速定常収束を容易にする摂動法を提案し,実験的に検証する。

関連論文リスト

Global Convergence of Continual Learning on Non-IID Data [51.99584235667152]
回帰モデルの連続学習のための総合的・包括的理論的解析を行う。一般データ条件下で連続学習のほぼ確実に収束する結果を初めて確立する。
論文参考訳（メタデータ） (2025-03-24T10:06:07Z)
Policy Regularization on Globally Accessible States in Cross-Dynamics Reinforcement Learning [53.9544543607396]
我々は、報酬レンダリングとImitation from Observation (IfO)を統合した新しいフレームワークを提案する。異なる方法でF距離をインスタンス化することにより、2つの理論的解析を導き、アクセシブルステート指向ポリシー規則化(ASOR)と呼ばれる実用的なアルゴリズムを開発する。 ASOR は、オフライン RL やオフライン RL など、様々なアプローチ RL に組み込まれる一般的なアドオンモジュールとして機能する。
論文参考訳（メタデータ） (2025-03-10T03:50:20Z)
Causal Temporal Representation Learning with Nonstationary Sparse Transition [22.6420431022419]
Causal Temporal Representation Learning (Ctrl) 法は、複雑な非定常時間列の時間的因果ダイナミクスを特定することを目的としている。この研究は、人間の直感的な理解と整合したスパース遷移の仮定を採用し、理論的な観点から識別可能性の結果を提示している。本稿では,非定常スパース遷移を用いた因果時間表現学習(CtrlNS)を提案する。
論文参考訳（メタデータ） (2024-09-05T00:38:27Z)
Rethinking State Disentanglement in Causal Reinforcement Learning [78.12976579620165]
因果性は、根底にある状態が識別可能性によって一意に回復できることを保証するための厳密な理論的支援を提供する。我々はこの研究ラインを再考し、RL固有のコンテキストを取り入れることで、潜在状態に対する以前の識別可能性分析における不要な仮定を低減できることを示した。本稿では, 従来手法の複雑な構造制約を, 遷移と報酬保存の2つの簡単な制約に置き換えることにより, 一般に部分的に観測可能なマルコフ決定過程(POMDP)を提案する。
論文参考訳（メタデータ） (2024-08-24T06:49:13Z)
Time-Constrained Robust MDPs [28.641743425443]
我々は,多因子性,相関性,時間依存障害を考慮した新しい時間制約型ロバストMDP(TC-RMDP)の定式化を導入する。本研究では、ロバストなRLにおける一般的な仮定を再考し、より実用的で現実的なRLアプリケーションを開発するための新たな道を開く。
論文参考訳（メタデータ） (2024-06-12T16:45:09Z)
Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文参考訳（メタデータ） (2024-03-18T14:51:19Z)
Learning Interpretable Policies in Hindsight-Observable POMDPs through Partially Supervised Reinforcement Learning [57.67629402360924]
本稿では,PSRL(Partially Supervised Reinforcement Learning)フレームワークを紹介する。 PSRLの中心は、教師なし学習と教師なし学習の融合である。 PSRLは、保存中のモデル解釈可能性を高め、従来の手法で設定された性能ベンチマークよりも大幅に向上することを示す。
論文参考訳（メタデータ） (2024-02-14T16:23:23Z)
A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文参考訳（メタデータ） (2022-05-11T00:06:29Z)
Offline Reinforcement Learning: Fundamental Barriers for Value Function Approximation [74.3002974673248]
本稿では,ログデータから意思決定方針を学習することを目的としたオフライン強化学習問題を考察する。オンラインデータ収集は安全クリティカルなドメインに適しているため、オフラインのRLは現実的にますます重要になっている。以上の結果から, サンプル効率の良いオフライン強化学習には, 制限的カバレッジ条件か, あるいは複雑性学習を超える表現条件が必要であることが示唆された。
論文参考訳（メタデータ） (2021-11-21T23:22:37Z)
Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文参考訳（メタデータ） (2021-10-27T00:32:07Z)
Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文参考訳（メタデータ） (2021-03-08T18:06:44Z)
Towards Continual Reinforcement Learning: A Review and Perspectives [69.48324517535549]
我々は,連続的強化学習(RL)に対する異なる定式化とアプローチの文献レビューの提供を目的とする。まだ初期段階だが、継続的なrlの研究は、よりインクリメンタルな強化学習者を開発することを約束している。これには、医療、教育、物流、ロボット工学などの分野の応用が含まれる。
論文参考訳（メタデータ） (2020-12-25T02:35:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。