論文の概要: Exact Formulas for Finite-Time Estimation Errors of Decentralized
Temporal Difference Learning with Linear Function Approximation
- arxiv url: http://arxiv.org/abs/2204.09801v1
- Date: Wed, 20 Apr 2022 22:02:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 14:48:09.833712
- Title: Exact Formulas for Finite-Time Estimation Errors of Decentralized
Temporal Difference Learning with Linear Function Approximation
- Title(参考訳): 線形関数近似を用いた分散型時間差分学習における有限時間推定誤差の厳密式
- Authors: Xingang Guo, Bin Hu
- Abstract要約: 線形関数近似を用いた分散時間時間差(TD)学習における有限時間平均二乗推定誤差の正確な閉形式式を導出する。
興味深い発見は、必要で十分な安定性の下では、平均二乗のTD推定誤差は特定の指数速度で正確な極限に収束するということである。
- 参考スコア(独自算出の注目度): 3.9391112596932243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we consider the policy evaluation problem in multi-agent
reinforcement learning (MARL) and derive exact closed-form formulas for the
finite-time mean-squared estimation errors of decentralized temporal difference
(TD) learning with linear function approximation. Our analysis hinges upon the
fact that the decentralized TD learning method can be viewed as a Markov jump
linear system (MJLS). Then standard MJLS theory can be applied to quantify the
mean and covariance matrix of the estimation error of the decentralized TD
method at every time step. Various implications of our exact formulas on the
algorithm performance are also discussed. An interesting finding is that under
a necessary and sufficient stability condition, the mean-squared TD estimation
error will converge to an exact limit at a specific exponential rate.
- Abstract(参考訳): 本稿では,マルチエージェント強化学習(marl)における政策評価問題と,線形関数近似を用いた分散時間差(td)学習の有限時間平均二乗推定誤差の完全閉形式式を導出する。
我々の分析は、分散化されたTD学習手法をマルコフジャンプ線形システム(MJLS)とみなすことができるという事実に基づいている。
そして、標準的なMJLS理論を適用して、分散化されたTD法の推定誤差の平均と共分散行列を各ステップで定量化することができる。
また, アルゴリズム性能に対する計算式の影響についても考察した。
興味深い発見は、必要十分安定条件の下で平均二乗td推定誤差が特定の指数速度で正確な限界に収束することである。
関連論文リスト
- On Bellman equations for continuous-time policy evaluation I: discretization and approximation [3.704688279256839]
本研究では,連続時間拡散過程の離散的に観測された軌道から値関数を計算する問題について検討する。
離散時間強化学習と互換性のある,容易に実装可能な数値スキームに基づく新しいアルゴリズムのクラスを開発する。
論文 参考訳(メタデータ) (2024-07-08T14:05:03Z) - Finite Time Analysis of Temporal Difference Learning for Mean-Variance in a Discounted MDP [1.0923877073891446]
割引報酬マルコフ決定プロセスにおける分散政策評価の問題点を考察する。
本稿では,線形関数近似(LFA)を用いた時間差分型学習アルゴリズムについて述べる。
平均二乗の意味で(i) を保持する有限標本境界と、(ii) テールイテレート平均化を用いる場合の高い確率を導出する。
論文 参考訳(メタデータ) (2024-06-12T05:49:53Z) - Improved High-Probability Bounds for the Temporal Difference Learning Algorithm via Exponential Stability [17.771354881467435]
一般化された, インスタンスに依存しないステップサイズを持つ単純なアルゴリズムは, ほぼ最適分散とバイアス項を得るのに十分であることを示す。
本手法は, 線形近似のための洗練された誤差境界と, ランダム行列の積に対する新しい安定性結果に基づく。
論文 参考訳(メタデータ) (2023-10-22T12:37:25Z) - Monte Carlo Neural PDE Solver for Learning PDEs via Probabilistic Representation [59.45669299295436]
教師なしニューラルソルバのトレーニングのためのモンテカルロPDEソルバを提案する。
我々は、マクロ現象をランダム粒子のアンサンブルとみなすPDEの確率的表現を用いる。
対流拡散, アレン・カーン, ナヴィエ・ストークス方程式に関する実験により, 精度と効率が著しく向上した。
論文 参考訳(メタデータ) (2023-02-10T08:05:19Z) - Posterior and Computational Uncertainty in Gaussian Processes [52.26904059556759]
ガウスのプロセスはデータセットのサイズとともに違法にスケールする。
多くの近似法が開発されており、必然的に近似誤差を導入している。
この余分な不確実性の原因は、計算が限られているため、近似後部を使用すると完全に無視される。
本研究では,観測された有限個のデータと有限個の計算量の両方から生じる組合せ不確実性を一貫した推定を行う手法の開発を行う。
論文 参考訳(メタデータ) (2022-05-30T22:16:25Z) - Temporal Difference Learning with Continuous Time and State in the
Stochastic Setting [0.0]
継続的政策評価の問題点を考察する。
これは、制御されていない連続時間ダイナミクスと報酬関数に関連付けられた値関数を観察を通して学習する。
論文 参考訳(メタデータ) (2022-02-16T10:10:53Z) - Predictor-Corrector(PC) Temporal Difference(TD) Learning (PCTD) [0.0]
Predictor-Corrector Temporal difference (PCTD) は、私が離散時間 ODE の理論から翻訳時間 Reinforcement (RL) アルゴリズムと呼ぶものです。
私は新しいタイプのtd学習アルゴリズムを提案する。
近似されるパラメータは、ODEに対する解のTaylor Seriesエラーのマグニチュード低減の保証された順序を有する。
論文 参考訳(メタデータ) (2021-04-15T18:54:16Z) - Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。
リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。
このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文 参考訳(メタデータ) (2021-02-27T19:28:39Z) - Amortized Conditional Normalized Maximum Likelihood: Reliable Out of
Distribution Uncertainty Estimation [99.92568326314667]
本研究では,不確実性推定のための拡張性のある汎用的アプローチとして,償却条件正規化最大値(ACNML)法を提案する。
提案アルゴリズムは条件付き正規化最大度(CNML)符号化方式に基づいており、最小記述長の原理に従って最小値の最適特性を持つ。
我々は、ACNMLが、分布外入力のキャリブレーションの観点から、不確実性推定のための多くの手法と好意的に比較することを示した。
論文 参考訳(メタデータ) (2020-11-05T08:04:34Z) - Batch Stationary Distribution Estimation [98.18201132095066]
サンプル遷移の組を与えられたエルゴードマルコフ鎖の定常分布を近似する問題を考える。
与えられたデータに対する補正比関数の復元に基づく一貫した推定器を提案する。
論文 参考訳(メタデータ) (2020-03-02T09:10:01Z) - Localized Debiased Machine Learning: Efficient Inference on Quantile
Treatment Effects and Beyond [69.83813153444115]
因果推論における(局所)量子化処理効果((L)QTE)の効率的な推定式を検討する。
Debiased Machine Learning (DML)は、高次元のニュアンスを推定するデータ分割手法である。
本稿では、この負担のかかるステップを避けるために、局所的脱バイアス機械学習(LDML)を提案する。
論文 参考訳(メタデータ) (2019-12-30T14:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。