論文の概要: Beyond Exponentially Fast Mixing in Average-Reward Reinforcement
Learning via Multi-Level Monte Carlo Actor-Critic
- arxiv url: http://arxiv.org/abs/2301.12083v1
- Date: Sat, 28 Jan 2023 04:12:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 19:04:51.384685
- Title: Beyond Exponentially Fast Mixing in Average-Reward Reinforcement
Learning via Multi-Level Monte Carlo Actor-Critic
- Title(参考訳): 多レベルモンテカルロアクター・クリティカルを用いた平均逆強化学習における指数的高速混合
- Authors: Wesley A. Suttle, Amrit Singh Bedi, Bhrij Patel, Brian Sadler, Alec
Koppel, Dinesh Manocha
- Abstract要約: 本稿では,アクター・アクターとアクター・アクター・アクター・アルゴリズムに埋め込まれた平均報酬に対して,マルチレベルモンテカルロ推定器を用いて混合時間に適応したRL手法を提案する。
不安定な報酬を伴うRL問題において,安定性に要求される技術的条件の緩和効果が,実用上優れた性能に変換されることを実験的に示す。
- 参考スコア(独自算出の注目度): 52.24049886471242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many existing reinforcement learning (RL) methods employ stochastic gradient
iteration on the back end, whose stability hinges upon a hypothesis that the
data-generating process mixes exponentially fast with a rate parameter that
appears in the step-size selection. Unfortunately, this assumption is violated
for large state spaces or settings with sparse rewards, and the mixing time is
unknown, making the step size inoperable. In this work, we propose an RL
methodology attuned to the mixing time by employing a multi-level Monte Carlo
estimator for the critic, the actor, and the average reward embedded within an
actor-critic (AC) algorithm. This method, which we call \textbf{M}ulti-level
\textbf{A}ctor-\textbf{C}ritic (MAC), is developed especially for
infinite-horizon average-reward settings and neither relies on oracle knowledge
of the mixing time in its parameter selection nor assumes its exponential
decay; it, therefore, is readily applicable to applications with slower mixing
times. Nonetheless, it achieves a convergence rate comparable to the
state-of-the-art AC algorithms. We experimentally show that these alleviated
restrictions on the technical conditions required for stability translate to
superior performance in practice for RL problems with sparse rewards.
- Abstract(参考訳): 既存の強化学習(RL)法の多くは、データ生成プロセスがステップサイズ選択に現れるレートパラメータと指数関数的に高速に混在するという仮説に基づいて、後端の確率勾配反復を用いている。
残念ながら、この仮定は大きな状態空間やスパース報酬を持つ設定に違反しており、混合時間は不明であり、ステップサイズが動作不能である。
本研究では,批評家,俳優,およびacアルゴリズムに埋め込まれた報酬の平均値に対してマルチレベルモンテカルロ推定器を用いることにより,混合時間に応じたrl手法を提案する。
このメソッドは \textbf{m}ulti-level \textbf{a}ctor-\textbf{c}ritic (mac) と呼ばれ、特に無限ホリゾン平均リワード設定のために開発されており、パラメータ選択におけるoracleの混合時間に関する知識や指数的減衰を前提としないため、混合時間が遅いアプリケーションにも容易に適用できる。
それでも、最先端のACアルゴリズムに匹敵する収束率を達成する。
不安定な報酬を伴うRL問題において, 安定に必要な技術的条件の緩和は, 性能的に優れていることを示す。
関連論文リスト
- Towards Global Optimality for Practical Average Reward Reinforcement Learning without Mixing Time Oracles [83.85151306138007]
Multi-level Actor-Critic (MAC) フレームワークには、MLMC (Multi-level Monte-Carlo) 推定器が組み込まれている。
MACは、平均報酬設定において、既存の最先端ポリシーグラデーションベースの手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-18T16:23:47Z) - Fast Semisupervised Unmixing Using Nonconvex Optimization [80.11512905623417]
半/ライブラリベースのアンミックスのための新しい凸凸モデルを提案する。
スパース・アンミキシングの代替手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-01-23T10:07:41Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Faster One-Sample Stochastic Conditional Gradient Method for Composite
Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。
提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文 参考訳(メタデータ) (2022-02-26T19:10:48Z) - Adapting to Mixing Time in Stochastic Optimization with Markovian Data [12.709177728330399]
マルコフ連鎖からデータを引き出す際の最適化問題を考える。
この設定の既存の方法は、チェーンの混合時間を知ることに依存する。
本手法は,適応学習法とともに,マルチレベルモンテカルロ勾配推定(ML)の新たな組み合わせに依存する。
論文 参考訳(メタデータ) (2022-02-09T12:43:11Z) - Continual Learning In Environments With Polynomial Mixing Times [13.533984338434106]
連続的強化学習における混合時間の影響について検討した。
平均報酬を直接最適化することで学習を高速化するモデルベースアルゴリズムのファミリーを提案する。
論文 参考訳(メタデータ) (2021-12-13T23:41:56Z) - Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。
制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-02-16T14:53:55Z) - Multi-agent Reinforcement Learning Accelerated MCMC on Multiscale
Inversion Problem [0.0]
モンテカルロマルコフ連鎖(MCMC)サンプリングアルゴリズムを高速化するために,マルチエージェントアクタ・クリティック強化学習(RL)アルゴリズムを提案する。
エージェントのポリシー(アクター)はMCMCのステップで提案を生成するために使用され、批評家は中央集権的であり、長期的な報酬を見積もる責任がある。
実験の結果,提案手法はサンプリングプロセスを大幅に改善することがわかった。
論文 参考訳(メタデータ) (2020-11-17T21:25:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。