Fugu-MT 論文翻訳(概要): On Convergence of Average-Reward Off-Policy Control Algorithms in Weakly-Communicating MDPs

論文の概要: On Convergence of Average-Reward Off-Policy Control Algorithms in Weakly-Communicating MDPs

arxiv url: http://arxiv.org/abs/2209.15141v1
Date: Fri, 30 Sep 2022 00:07:48 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-03 16:10:35.803282
Title: On Convergence of Average-Reward Off-Policy Control Algorithms in Weakly-Communicating MDPs
Title（参考訳）: 弱共用mdpにおける平均反転オフポリシー制御アルゴリズムの収束について
Authors: Yi Wan, Richard S. Sutton
Abstract要約: 本稿では,2つの平均逆オフ政治制御アルゴリズム,差分Q学習(Wan, Naik, & Sutton 2021a)とRVIQ学習(Abounadi Bertsekas & Borkar 2001)について述べる。直接拡張として、(Wan, Naik, & Sutton 2021b) によって導入された平均回帰オプションアルゴリズムは、オプションによって誘導されるセミMDPが弱通信である場合に収束することを示す。
参考スコア（独自算出の注目度）: 15.874687616157056
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We show two average-reward off-policy control algorithms, Differential Q Learning (Wan, Naik, \& Sutton 2021a) and RVI Q Learning (Abounadi Bertsekas \& Borkar 2001), converge in weakly-communicating MDPs. Weakly-communicating MDPs are the most general class of MDPs that a learning algorithm with a single stream of experience can guarantee obtaining a policy achieving optimal reward rate. The original convergence proofs of the two algorithms require that all optimal policies induce unichains, which is not necessarily true for weakly-communicating MDPs. To the best of our knowledge, our results are the first showing average-reward off-policy control algorithms converge in weakly-communicating MDPs. As a direct extension, we show that average-reward options algorithms introduced by (Wan, Naik, \& Sutton 2021b) converge if the Semi-MDP induced by options is weakly-communicating.
Abstract（参考訳）: 本稿では,2つの平均逆オフ政治制御アルゴリズム,差分Q学習(Wan, Naik, \& Sutton 2021a)とRVIQ学習(Abounadi Bertsekas \& Borkar 2001)について述べる。弱いコミュニケーションのMDPは、単一の経験の流れを持つ学習アルゴリズムが最適な報酬率を達成するためのポリシーを得ることを保証できる、最も一般的なMDPのクラスである。 2つのアルゴリズムの元々の収束証明は、全ての最適ポリシーがユニチェーンを誘導することを要求する。我々の知る限りでは、我々の結果は、弱通信のMDPに平均逆オフ・ポリシー制御アルゴリズムが収束することを示す最初のものである。直接拡張として、(Wan, Naik, \& Sutton 2021b) によって導入された平均回帰オプションアルゴリズムは、オプションによって誘導されるセミMDPが弱通信である場合に収束することを示す。

関連論文リスト

On Convergence of Average-Reward Q-Learning in Weakly Communicating Markov Decision Processes [11.868402302316131]
本稿では,マルコフ決定過程(MDP)の強化学習(RL)アルゴリズムを,平均回帰基準の下で解析する。本稿では,MDPを弱通信する反復RVI法のモデル自由集合であるRVI(Rexent Value)に基づくQ-learningアルゴリズムに着目した。
論文参考訳（メタデータ） (2024-08-29T04:57:44Z)
Individualized Privacy Accounting via Subsampling with Applications in Combinatorial Optimization [55.81991984375959]
本研究では、以下の簡単な観察を通して、個別化されたプライバシ会計を解析する新しい手法を提案する。我々は、分解可能な部分モジュラーおよびセットアルゴリズム被覆を含む、プライベート最適化問題に対するいくつかの改良されたアルゴリズムを得る。
論文参考訳（メタデータ） (2024-05-28T19:02:30Z)
On the Global Convergence of Policy Gradient in Average Reward Markov Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文参考訳（メタデータ） (2024-03-11T15:25:03Z)
Convergence for Natural Policy Gradient on Infinite-State Queueing MDPs [14.14642081068942]
様々な待ち行列系は自然に無限状態マルコフ決定過程(MDP)としてモデル化できる強化学習(RL)の文脈では、これらのMDPを学習し、最適化するために様々なアルゴリズムが開発されている。ナチュラル・アクター・クリティカル、TRPO、PPOなど、多くの一般的なポリシーに基づく学習アルゴリズムの中心に、Natural Policy Gradient(NPG)ポリシー最適化アルゴリズムがある。
論文参考訳（メタデータ） (2024-02-07T21:43:57Z)
A Policy Gradient Primal-Dual Algorithm for Constrained MDPs with Uniform PAC Guarantees [28.974797385513263]
オンラインマルコフ制約決定過程(CMDP)に対する原始二重強化学習(RL)アルゴリズムについて検討する。本稿では,一様に近似した正当性(Uniform-PAC)を保証し,最適ポリシへの収束,サブ線形後悔,任意の目標精度に対するサンプル複雑性を同時に確保する,新しいポリシー勾配PDアルゴリズムを提案する。特に、これはオンラインCMDP問題に対する最初のUniform-PACアルゴリズムである。
論文参考訳（メタデータ） (2024-01-31T12:23:24Z)
Last-Iterate Convergent Policy Gradient Primal-Dual Methods for Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文参考訳（メタデータ） (2023-06-20T17:27:31Z)
ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints [36.16736392624796]
平均基準付き制約付きMDPに対する関数近似アルゴリズムを用いた新しいポリシー最適化を提案する。我々は,平均CMDPに対する基本感度理論を開発し,それに対応する境界をアルゴリズムの設計に用いた。 ACMDPに適応した他の最先端アルゴリズムと比較して,実験性能が優れていることを示す。
論文参考訳（メタデータ） (2023-02-02T00:23:36Z)
Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文参考訳（メタデータ） (2021-07-09T04:24:40Z)
Lower Bounds and Optimal Algorithms for Smooth and Strongly Convex Decentralized Optimization Over Time-Varying Networks [79.16773494166644]
通信ネットワークのノード間を分散的に保存するスムーズで強い凸関数の和を最小化するタスクについて検討する。我々は、これらの下位境界を達成するための2つの最適アルゴリズムを設計する。我々は,既存の最先端手法と実験的な比較を行うことにより,これらのアルゴリズムの理論的効率を裏付ける。
論文参考訳（メタデータ） (2021-06-08T15:54:44Z)
RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討 LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文参考訳（メタデータ） (2021-02-09T16:49:58Z)
Finding the Near Optimal Policy via Adaptive Reduced Regularization in MDPs [22.642894680618333]
正規化 MDP はオリジナルの MDP のスムーズなバージョンとして機能する。偏りのある最適政策は、常に正規化されたMDPに対して存在する。本稿では,従来のMDPの最適ポリシを近似するために,ラムダを適応的に削減する手法を提案する。
論文参考訳（メタデータ） (2020-10-31T08:31:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。