Fugu-MT 論文翻訳(概要): Beyond Exponentially Fast Mixing in Average-Reward Reinforcement Learning via Multi-Level Monte Carlo Actor-Critic

論文の概要: Beyond Exponentially Fast Mixing in Average-Reward Reinforcement Learning via Multi-Level Monte Carlo Actor-Critic

arxiv url: http://arxiv.org/abs/2301.12083v1
Date: Sat, 28 Jan 2023 04:12:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-31 19:04:51.384685
Title: Beyond Exponentially Fast Mixing in Average-Reward Reinforcement Learning via Multi-Level Monte Carlo Actor-Critic
Title（参考訳）: 多レベルモンテカルロアクター・クリティカルを用いた平均逆強化学習における指数的高速混合
Authors: Wesley A. Suttle, Amrit Singh Bedi, Bhrij Patel, Brian Sadler, Alec Koppel, Dinesh Manocha
Abstract要約: 本稿では,アクター・アクターとアクター・アクター・アクター・アルゴリズムに埋め込まれた平均報酬に対して,マルチレベルモンテカルロ推定器を用いて混合時間に適応したRL手法を提案する。不安定な報酬を伴うRL問題において,安定性に要求される技術的条件の緩和効果が,実用上優れた性能に変換されることを実験的に示す。
参考スコア（独自算出の注目度）: 52.24049886471242
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many existing reinforcement learning (RL) methods employ stochastic gradient iteration on the back end, whose stability hinges upon a hypothesis that the data-generating process mixes exponentially fast with a rate parameter that appears in the step-size selection. Unfortunately, this assumption is violated for large state spaces or settings with sparse rewards, and the mixing time is unknown, making the step size inoperable. In this work, we propose an RL methodology attuned to the mixing time by employing a multi-level Monte Carlo estimator for the critic, the actor, and the average reward embedded within an actor-critic (AC) algorithm. This method, which we call \textbf{M}ulti-level \textbf{A}ctor-\textbf{C}ritic (MAC), is developed especially for infinite-horizon average-reward settings and neither relies on oracle knowledge of the mixing time in its parameter selection nor assumes its exponential decay; it, therefore, is readily applicable to applications with slower mixing times. Nonetheless, it achieves a convergence rate comparable to the state-of-the-art AC algorithms. We experimentally show that these alleviated restrictions on the technical conditions required for stability translate to superior performance in practice for RL problems with sparse rewards.
Abstract（参考訳）: 既存の強化学習(RL)法の多くは、データ生成プロセスがステップサイズ選択に現れるレートパラメータと指数関数的に高速に混在するという仮説に基づいて、後端の確率勾配反復を用いている。残念ながら、この仮定は大きな状態空間やスパース報酬を持つ設定に違反しており、混合時間は不明であり、ステップサイズが動作不能である。本研究では,批評家,俳優,およびacアルゴリズムに埋め込まれた報酬の平均値に対してマルチレベルモンテカルロ推定器を用いることにより,混合時間に応じたrl手法を提案する。このメソッドは \textbf{m}ulti-level \textbf{a}ctor-\textbf{c}ritic (mac) と呼ばれ、特に無限ホリゾン平均リワード設定のために開発されており、パラメータ選択におけるoracleの混合時間に関する知識や指数的減衰を前提としないため、混合時間が遅いアプリケーションにも容易に適用できる。それでも、最先端のACアルゴリズムに匹敵する収束率を達成する。不安定な報酬を伴うRL問題において, 安定に必要な技術的条件の緩和は, 性能的に優れていることを示す。

関連論文リスト

MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文参考訳（メタデータ） (2025-07-06T08:16:50Z)
Regret Analysis of Average-Reward Unichain MDPs via an Actor-Critic Approach [33.38582292895673]
無限逆平均逆決定過程における$tildeO(sqrtT)$の順序最適後悔を伴う自然アクター批判を提案する。 NACBはアクターと批評家の両方に関数近似を用いており、大きな状態の潜在的周期性と行動空間への拡張を可能にしている。
論文参考訳（メタデータ） (2025-05-26T13:43:02Z)
A Sharper Global Convergence Analysis for Average Reward Reinforcement Learning via an Actor-Critic Approach [31.343919501963416]
本研究は,一般政策パラメトリゼーションによる平均回帰強化学習について検討する。マルチレベルモンテカルロをベースとしたNatural Actor-Critic (MLMC-NAC)アルゴリズムを提案する。我々の研究は、平均回帰マルコフ決定過程に対して$tildemathcalO (1/sqrtT)$のグローバル収束率を達成した最初のものである。
論文参考訳（メタデータ） (2024-07-26T17:16:31Z)
Towards Global Optimality for Practical Average Reward Reinforcement Learning without Mixing Time Oracles [83.85151306138007]
Multi-level Actor-Critic (MAC) フレームワークには、MLMC (Multi-level Monte-Carlo) 推定器が組み込まれている。 MACは、平均報酬設定において、既存の最先端ポリシーグラデーションベースの手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-03-18T16:23:47Z)
Fast Semisupervised Unmixing Using Nonconvex Optimization [80.11512905623417]
半/ライブラリベースのアンミックスのための新しい凸凸モデルを提案する。スパース・アンミキシングの代替手法の有効性を実証する。
論文参考訳（メタデータ） (2024-01-23T10:07:41Z)
Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文参考訳（メタデータ） (2022-04-13T12:43:12Z)
Faster One-Sample Stochastic Conditional Gradient Method for Composite Convex Minimization [61.26619639722804]
滑らかで非滑らかな項の和として形成される凸有限サム目標を最小化するための条件勾配法(CGM)を提案する。提案手法は, 平均勾配 (SAG) 推定器を備え, 1回に1回のサンプルしか必要としないが, より高度な分散低減技術と同等の高速収束速度を保証できる。
論文参考訳（メタデータ） (2022-02-26T19:10:48Z)
Adapting to Mixing Time in Stochastic Optimization with Markovian Data [12.709177728330399]
マルコフ連鎖からデータを引き出す際の最適化問題を考える。この設定の既存の方法は、チェーンの混合時間を知ることに依存する。本手法は,適応学習法とともに,マルチレベルモンテカルロ勾配推定(ML)の新たな組み合わせに依存する。
論文参考訳（メタデータ） (2022-02-09T12:43:11Z)
Continual Learning In Environments With Polynomial Mixing Times [13.533984338434106]
連続的強化学習における混合時間の影響について検討した。平均報酬を直接最適化することで学習を高速化するモデルベースアルゴリズムのファミリーを提案する。
論文参考訳（メタデータ） (2021-12-13T23:41:56Z)
Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文参考訳（メタデータ） (2021-02-16T14:53:55Z)
Multi-agent Reinforcement Learning Accelerated MCMC on Multiscale Inversion Problem [0.0]
モンテカルロマルコフ連鎖(MCMC)サンプリングアルゴリズムを高速化するために,マルチエージェントアクタ・クリティック強化学習(RL)アルゴリズムを提案する。エージェントのポリシー(アクター)はMCMCのステップで提案を生成するために使用され、批評家は中央集権的であり、長期的な報酬を見積もる責任がある。実験の結果,提案手法はサンプリングプロセスを大幅に改善することがわかった。
論文参考訳（メタデータ） (2020-11-17T21:25:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。