Fugu-MT 論文翻訳(概要): Global Optimality without Mixing Time Oracles in Average-reward RL via Multi-level Actor-Critic

論文の概要: Global Optimality without Mixing Time Oracles in Average-reward RL via Multi-level Actor-Critic

arxiv url: http://arxiv.org/abs/2403.11925v3
Date: Fri, 10 May 2024 00:57:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-13 11:22:39.507283
Title: Global Optimality without Mixing Time Oracles in Average-reward RL via Multi-level Actor-Critic
Title（参考訳）: 多レベルアクター臨界による平均回帰RLにおける時間オラクルの混合のない大域的最適性
Authors: Bhrij Patel, Wesley A. Suttle, Alec Koppel, Vaneet Aggarwal, Brian M. Sadler, Amrit Singh Bedi, Dinesh Manocha,
Abstract要約: Multi-level Actor-Critic (MAC) フレームワークには、Multi-level Monte Carlo (MLMC) 勾配推定器が組み込まれている。 2次元グリッドワールド目標到達ナビゲーション実験により、MACは従来のPGベースの平均報酬法よりも高い報酬を得られることを示した。
参考スコア（独自算出の注目度）: 83.85151306138007
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the context of average-reward reinforcement learning, the requirement for oracle knowledge of the mixing time, a measure of the duration a Markov chain under a fixed policy needs to achieve its stationary distribution-poses a significant challenge for the global convergence of policy gradient methods. This requirement is particularly problematic due to the difficulty and expense of estimating mixing time in environments with large state spaces, leading to the necessity of impractically long trajectories for effective gradient estimation in practical applications. To address this limitation, we consider the Multi-level Actor-Critic (MAC) framework, which incorporates a Multi-level Monte Carlo (MLMC) gradient estimator. With our approach, we effectively alleviate the dependency on mixing time knowledge, a first for average-reward MDPs global convergence. Furthermore, our approach exhibits the tightest-available dependence of $\mathcal{O}\left( \sqrt{\tau_{mix}} \right)$ relative to prior work. With a 2D gridworld goal-reaching navigation experiment, we demonstrate that MAC achieves higher reward than a previous PG-based method for average reward, Parameterized Policy Gradient with Advantage Estimation (PPGAE), especially in cases with relatively small training sample budget restricting trajectory length.
Abstract（参考訳）: 平均回帰強化学習の文脈では、混合時間のオラクル知識の要求、固定された政策の下でマルコフ連鎖の持続時間の測定は、その定常分布を達成する必要がある。この要件は、大きな状態空間を持つ環境での混合時間推定の困難さと費用が原因で特に問題となる。この制限に対処するために,マルチレベルモンテカルロ勾配推定器を組み込んだマルチレベルアクタ・クリティカル(MAC)フレームワークを検討する。提案手法では, 時間知識の混合への依存を効果的に緩和する。さらに,本手法は先行研究と比較して,$\mathcal{O}\left( \sqrt{\tau_{mix}} \right)$の厳密な依存性を示す。 2次元グリッドワールドの目標到達航法実験により,MACが従来のPG法よりも高い報酬を得られることを示す。

関連論文リスト

WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。 WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文参考訳（メタデータ） (2025-07-23T16:02:06Z)
A Sharper Global Convergence Analysis for Average Reward Reinforcement Learning via an Actor-Critic Approach [31.343919501963416]
本研究は,一般政策パラメトリゼーションによる平均回帰強化学習について検討する。マルチレベルモンテカルロをベースとしたNatural Actor-Critic (MLMC-NAC)アルゴリズムを提案する。我々の研究は、平均回帰マルコフ決定過程に対して$tildemathcalO (1/sqrtT)$のグローバル収束率を達成した最初のものである。
論文参考訳（メタデータ） (2024-07-26T17:16:31Z)
Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文参考訳（メタデータ） (2024-07-15T14:54:57Z)
Beyond Exponentially Fast Mixing in Average-Reward Reinforcement Learning via Multi-Level Monte Carlo Actor-Critic [61.968469104271676]
本稿では,アクター・アクターとアクター・アクター・アクター・アルゴリズムに埋め込まれた平均報酬に対して,マルチレベルモンテカルロ推定器を用いて混合時間に適応したRL手法を提案する。不安定な報酬を伴うRL問題において,安定性に要求される技術的条件の緩和効果が,実用上優れた性能に変換されることを実験的に示す。
論文参考訳（メタデータ） (2023-01-28T04:12:56Z)
Continual Learning In Environments With Polynomial Mixing Times [13.533984338434106]
連続的強化学習における混合時間の影響について検討した。平均報酬を直接最適化することで学習を高速化するモデルベースアルゴリズムのファミリーを提案する。
論文参考訳（メタデータ） (2021-12-13T23:41:56Z)
MDPGT: Momentum-based Decentralized Policy Gradient Tracking [29.22173174168708]
マルチエージェント強化学習のための運動量に基づく分散型ポリシー勾配追跡(MDPGT)を提案する。 MDPGTは、グローバル平均の$N$ローカルパフォーマンス関数の$epsilon-stationaryポイントに収束するために$mathcalO(N-1epsilon-3)$の最良のサンプル複雑性を実現する。これは、分散モデルレス強化学習における最先端のサンプル複雑さよりも優れています。
論文参考訳（メタデータ） (2021-12-06T06:55:51Z)
Global Convergence Using Policy Gradient Methods for Model-free Markovian Jump Linear Quadratic Control [8.98732207994362]
離散時間およびモデルフリーなマルコフジャンプ線形系の制御のための勾配に基づくポリシー最適化手法のグローバル収束性について検討する。本研究では、勾配勾配勾配法と自然政策勾配法を用いて、政策のグローバル収束を示す。
論文参考訳（メタデータ） (2021-11-30T09:26:26Z)
Convergence Rates of Average-Reward Multi-agent Reinforcement Learning via Randomized Linear Programming [41.30044824711509]
我々は,グローバル報酬が地域報酬の総和であり,共同政策がエージェントの限界と州全体の可観測性に分解される場合に焦点を当てる。エージェントが局所的なサドル点問題を解き、局所的な重み付き平均化を行うマルチエージェント拡張を開発する。準グロブリー最適解を得るためのサンプルの複雑さは、状態空間と作用空間の濃度に対する厳密な依存と一致することを確かめる。
論文参考訳（メタデータ） (2021-10-22T03:48:41Z)
Policy Mirror Descent for Regularized Reinforcement Learning: A Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文参考訳（メタデータ） (2021-05-24T02:21:34Z)
Improper Learning with Gradient-based Policy Optimization [62.50997487685586]
未知のマルコフ決定過程に対して学習者がmベースコントローラを与えられる不適切な強化学習設定を考える。制御器の不適切な混合のクラス上で動作する勾配に基づくアプローチを提案する。
論文参考訳（メタデータ） (2021-02-16T14:53:55Z)
Scalable Bayesian Inverse Reinforcement Learning [93.27920030279586]
我々はAVRIL(Adroximate Variational Reward Imitation Learning)を紹介する。本手法は,逆強化学習問題の誤った性質に対処する。本手法を従来の制御シミュレーションと並行して実際の医療データに適用し,現在の手法の範囲を超えた環境におけるベイズ報酬推論を実証する。
論文参考訳（メタデータ） (2021-02-12T12:32:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。