論文の概要: On Convergence of Average-Reward Off-Policy Control Algorithms in
Weakly-Communicating MDPs
- arxiv url: http://arxiv.org/abs/2209.15141v1
- Date: Fri, 30 Sep 2022 00:07:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 16:10:35.803282
- Title: On Convergence of Average-Reward Off-Policy Control Algorithms in
Weakly-Communicating MDPs
- Title(参考訳): 弱共用mdpにおける平均反転オフポリシー制御アルゴリズムの収束について
- Authors: Yi Wan, Richard S. Sutton
- Abstract要約: 本稿では,2つの平均逆オフ政治制御アルゴリズム,差分Q学習(Wan, Naik, & Sutton 2021a)とRVIQ学習(Abounadi Bertsekas & Borkar 2001)について述べる。
直接拡張として、(Wan, Naik, & Sutton 2021b) によって導入された平均回帰オプションアルゴリズムは、オプションによって誘導されるセミMDPが弱通信である場合に収束することを示す。
- 参考スコア(独自算出の注目度): 15.874687616157056
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show two average-reward off-policy control algorithms, Differential Q
Learning (Wan, Naik, \& Sutton 2021a) and RVI Q Learning (Abounadi Bertsekas \&
Borkar 2001), converge in weakly-communicating MDPs. Weakly-communicating MDPs
are the most general class of MDPs that a learning algorithm with a single
stream of experience can guarantee obtaining a policy achieving optimal reward
rate. The original convergence proofs of the two algorithms require that all
optimal policies induce unichains, which is not necessarily true for
weakly-communicating MDPs. To the best of our knowledge, our results are the
first showing average-reward off-policy control algorithms converge in
weakly-communicating MDPs. As a direct extension, we show that average-reward
options algorithms introduced by (Wan, Naik, \& Sutton 2021b) converge if the
Semi-MDP induced by options is weakly-communicating.
- Abstract(参考訳): 本稿では,2つの平均逆オフ政治制御アルゴリズム,差分Q学習(Wan, Naik, \& Sutton 2021a)とRVIQ学習(Abounadi Bertsekas \& Borkar 2001)について述べる。
弱いコミュニケーションのMDPは、単一の経験の流れを持つ学習アルゴリズムが最適な報酬率を達成するためのポリシーを得ることを保証できる、最も一般的なMDPのクラスである。
2つのアルゴリズムの元々の収束証明は、全ての最適ポリシーがユニチェーンを誘導することを要求する。
我々の知る限りでは、我々の結果は、弱通信のMDPに平均逆オフ・ポリシー制御アルゴリズムが収束することを示す最初のものである。
直接拡張として、(Wan, Naik, \& Sutton 2021b) によって導入された平均回帰オプションアルゴリズムは、オプションによって誘導されるセミMDPが弱通信である場合に収束することを示す。
関連論文リスト
- On the Global Convergence of Policy Gradient in Average Reward Markov
Decision Processes [50.68789924454235]
我々は、平均報酬マルコフ決定過程(MDP)の文脈における政策勾配の最初の有限時間大域収束解析を示す。
我々の分析によると、ポリシー勾配は、$Oleft(frac1Tright)$のサブリニアレートで最適ポリシーに収束し、$Oleft(log(T)right)$ regretに変換され、$T$は反復数を表す。
論文 参考訳(メタデータ) (2024-03-11T15:25:03Z) - Convergence for Natural Policy Gradient on Infinite-State Average-Reward
Markov Decision Processes [15.89915930948668]
無限状態平均逆 MDP に対する NPG アルゴリズムの第一収束率を証明した。
大規模な待ち行列型MDPの文脈では、MaxWeightポリシーは私たちの初期政治要件を満たすのに十分であることを示す。
論文 参考訳(メタデータ) (2024-02-07T21:43:57Z) - A Policy Gradient Primal-Dual Algorithm for Constrained MDPs with
Uniform PAC Guarantees [30.064420218612582]
本稿では,オンライン制約付きマルコフ決定過程(CMDP)問題に対するRLアルゴリズムについて検討する。
均一に近似した精度(Uniform-PAC)を保証する新しい勾配双対アルゴリズムを提案する。
理論的保証に加えて、我々のアルゴリズムが最適ポリシーに収束することを示す単純なCMDPを実証的に示す。
論文 参考訳(メタデータ) (2024-01-31T12:23:24Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Robust Average-Reward Markov Decision Processes [25.125481838479256]
我々は,不確実なセットに対して最悪の平均報酬を最適化する政策を見出すことを目標とする,堅牢な平均リワードMDPに焦点を当てる。
我々は, ディスカウント型MDPを用いて, 平均回帰MDPを近似するアプローチを採っている。
我々は、ロバスト平均逆 MDP に対するロバストなベルマン方程式を導出し、最適ポリシーがその解から導出できることを証明し、さらに、その解を確実に見つけ出すロバストな相対値アルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-02T19:51:55Z) - Policy Gradient in Robust MDPs with Global Convergence Guarantee [13.40471012593073]
Robust Markov決定プロセス(RMDP)は、モデルエラーに直面した信頼性の高いポリシーを計算するための有望なフレームワークを提供する。
本稿では、RMDPの汎用的ポリシー勾配法であるDRPG(Double-Loop Robust Policy Gradient)を提案する。
従来のロバストなポリシー勾配アルゴリズムとは対照的に、DRPGはグローバルな最適ポリシーへの収束を保証するために近似誤差を単調に削減する。
論文 参考訳(メタデータ) (2022-12-20T17:14:14Z) - Safe Exploration by Solving Early Terminated MDP [77.10563395197045]
我々は、Early TerminatedP(ET-MDP)の枠組みの下で、安全なRL問題に対処する新しいアプローチを導入する。
まず、ET-MDPを対応するCMDPと同じ最適値関数を持つ非制約アルゴリズムとして定義する。
そこで,文脈モデルに基づく非政治アルゴリズムを提案し,ET-MDPを解き,それに対応するCMDPをより良い性能で解き,学習効率を向上する。
論文 参考訳(メタデータ) (2021-07-09T04:24:40Z) - Lower Bounds and Optimal Algorithms for Smooth and Strongly Convex
Decentralized Optimization Over Time-Varying Networks [79.16773494166644]
通信ネットワークのノード間を分散的に保存するスムーズで強い凸関数の和を最小化するタスクについて検討する。
我々は、これらの下位境界を達成するための2つの最適アルゴリズムを設計する。
我々は,既存の最先端手法と実験的な比較を行うことにより,これらのアルゴリズムの理論的効率を裏付ける。
論文 参考訳(メタデータ) (2021-06-08T15:54:44Z) - RL for Latent MDPs: Regret Guarantees and a Lower Bound [74.41782017817808]
後期マルコフ決定過程(LMDP)における強化学習における後悔問題の検討
LMDPにおいて、M$可能なMDPのセットからMDPをランダムに描画するが、選択したMDPの同一性はエージェントに明らかにしない。
鍵となるリンクは、MDPシステムの力学の分離の概念であることを示す。
論文 参考訳(メタデータ) (2021-02-09T16:49:58Z) - Finding the Near Optimal Policy via Adaptive Reduced Regularization in
MDPs [22.642894680618333]
正規化 MDP はオリジナルの MDP のスムーズなバージョンとして機能する。
偏りのある最適政策は、常に正規化されたMDPに対して存在する。
本稿では,従来のMDPの最適ポリシを近似するために,ラムダを適応的に削減する手法を提案する。
論文 参考訳(メタデータ) (2020-10-31T08:31:34Z) - User-Level Privacy-Preserving Federated Learning: Analysis and
Performance Optimization [77.43075255745389]
フェデレートラーニング(FL)は、データを有用なモデルにトレーニングしながら、モバイル端末(MT)からプライベートデータを保存することができる。
情報理論の観点からは、MTがアップロードした共有モデルから、好奇心の強いサーバがプライベートな情報を推測することが可能である。
サーバにアップロードする前に、共有モデルに人工ノイズを加えることで、ユーザレベルの差分プライバシー(UDP)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-29T10:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。