論文の概要: Policy Evaluation and Temporal-Difference Learning in Continuous Time
and Space: A Martingale Approach
- arxiv url: http://arxiv.org/abs/2108.06655v1
- Date: Sun, 15 Aug 2021 03:37:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-18 04:41:29.637352
- Title: Policy Evaluation and Temporal-Difference Learning in Continuous Time
and Space: A Martingale Approach
- Title(参考訳): 連続時間と空間における政策評価と時間差学習:Martingaleアプローチ
- Authors: Yanwei Jia and Xun Yu Zhou
- Abstract要約: 政策評価はプロセスのマーチンゲール状態を維持することと等価であることを示す。
本稿では,PEアルゴリズムの設計にマーチンゲール特性を用いた2つの手法を提案する。
- 参考スコア(独自算出の注目度): 1.776746672434207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a unified framework to study policy evaluation (PE) and the
associated temporal difference (TD) methods for reinforcement learning in
continuous time and space. We show that PE is equivalent to maintaining the
martingale condition of a process. From this perspective, we find that the
mean--square TD error approximates the quadratic variation of the martingale
and thus is not a suitable objective for PE. We present two methods to use the
martingale characterization for designing PE algorithms. The first one
minimizes a "martingale loss function", whose solution is proved to be the best
approximation of the true value function in the mean--square sense. This method
interprets the classical gradient Monte-Carlo algorithm. The second method is
based on a system of equations called the "martingale orthogonality conditions"
with "test functions". Solving these equations in different ways recovers
various classical TD algorithms, such as TD($\lambda$), LSTD, and GTD.
Different choices of test functions determine in what sense the resulting
solutions approximate the true value function. Moreover, we prove that any
convergent time-discretized algorithm converges to its continuous-time
counterpart as the mesh size goes to zero. We demonstrate the theoretical
results and corresponding algorithms with numerical experiments and
applications.
- Abstract(参考訳): 本研究では,政策評価(PE)と関連する時間差分法(TD)を連続的な時間空間で学習するための統一的な枠組みを提案する。
PEはプロセスのマーチンゲール状態を維持するのに等価であることを示す。
この観点から、平均平方TD誤差はマーチンゲールの二次的変動を近似しており、そのためPEには適さないことが分かる。
我々は,peアルゴリズムの設計にmartingale characterizationを使用する2つの手法を提案する。
1つ目は「マーチンゲール損失関数」(martingale loss function)を最小化し、その解は平均平方意味での真の値関数の最適近似であることが証明される。
この手法は古典勾配モンテカルロアルゴリズムを解釈する。
2つ目の方法は、「テスト関数」を持つ「マルティンゲール直交条件」と呼ばれる方程式系に基づいている。
これらの方程式を異なる方法で解くことで、TD($\lambda$)、LSTD、GTDといった古典的なTDアルゴリズムが回復する。
テスト関数の異なる選択は、結果の解が真値関数にどんな意味で近似するかを決定する。
さらに,メッシュサイズが0となるにつれて,任意の収束時間分散アルゴリズムが連続時間に収束することを示す。
数値実験と応用により,理論結果と対応するアルゴリズムを実証する。
関連論文リスト
- Finite Time Analysis of Temporal Difference Learning for Mean-Variance in a Discounted MDP [1.0923877073891446]
割引報酬マルコフ決定プロセスにおける分散政策評価の問題点を考察する。
本稿では,線形関数近似(LFA)を用いた時間差分型学習アルゴリズムについて述べる。
平均二乗の意味で(i) を保持する有限標本境界と、(ii) テールイテレート平均化を用いる場合の高い確率を導出する。
論文 参考訳(メタデータ) (2024-06-12T05:49:53Z) - Online Learning with Adversaries: A Differential-Inclusion Analysis [52.43460995467893]
我々は,完全に非同期なオンラインフェデレート学習のための観察行列ベースのフレームワークを提案する。
我々の主な結果は、提案アルゴリズムがほぼ確実に所望の平均$mu.$に収束することである。
新たな差分包摂型2時間スケール解析を用いて,この収束を導出する。
論文 参考訳(メタデータ) (2023-04-04T04:32:29Z) - Sharp Variance-Dependent Bounds in Reinforcement Learning: Best of Both
Worlds in Stochastic and Deterministic Environments [48.96971760679639]
マルコフ決定過程(MDP)の分散依存的後悔境界について検討する。
環境の微細な分散特性を特徴付けるための2つの新しい環境規範を提案する。
モデルに基づく手法では、MVPアルゴリズムの変種を設計する。
特に、この境界は極小かつ決定論的 MDP に対して同時に最適である。
論文 参考訳(メタデータ) (2023-01-31T06:54:06Z) - Posterior and Computational Uncertainty in Gaussian Processes [52.26904059556759]
ガウスのプロセスはデータセットのサイズとともに違法にスケールする。
多くの近似法が開発されており、必然的に近似誤差を導入している。
この余分な不確実性の原因は、計算が限られているため、近似後部を使用すると完全に無視される。
本研究では,観測された有限個のデータと有限個の計算量の両方から生じる組合せ不確実性を一貫した推定を行う手法の開発を行う。
論文 参考訳(メタデータ) (2022-05-30T22:16:25Z) - Statistical Inference of Constrained Stochastic Optimization via Sketched Sequential Quadratic Programming [53.63469275932989]
制約付き非線形最適化問題のオンライン統計的推測を考察する。
これらの問題を解決するために、逐次二次計画法(StoSQP)を適用する。
論文 参考訳(メタデータ) (2022-05-27T00:34:03Z) - Temporal Difference Learning with Continuous Time and State in the
Stochastic Setting [0.0]
継続的政策評価の問題点を考察する。
これは、制御されていない連続時間ダイナミクスと報酬関数に関連付けられた値関数を観察を通して学習する。
論文 参考訳(メタデータ) (2022-02-16T10:10:53Z) - Predictor-Corrector(PC) Temporal Difference(TD) Learning (PCTD) [0.0]
Predictor-Corrector Temporal difference (PCTD) は、私が離散時間 ODE の理論から翻訳時間 Reinforcement (RL) アルゴリズムと呼ぶものです。
私は新しいタイプのtd学習アルゴリズムを提案する。
近似されるパラメータは、ODEに対する解のTaylor Seriesエラーのマグニチュード低減の保証された順序を有する。
論文 参考訳(メタデータ) (2021-04-15T18:54:16Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Optimal oracle inequalities for solving projected fixed-point equations [53.31620399640334]
ヒルベルト空間の既知の低次元部分空間を探索することにより、確率観測の集合を用いて近似解を計算する手法を検討する。
本稿では,線形関数近似を用いた政策評価問題に対する時間差分学習手法の誤差を正確に評価する方法について述べる。
論文 参考訳(メタデータ) (2020-12-09T20:19:32Z) - Simple and optimal methods for stochastic variational inequalities, II:
Markovian noise and policy evaluation in reinforcement learning [9.359939442911127]
本稿ではマルコフ雑音下での変分不等式(VI)のリセットに着目する。
我々のアルゴリズム開発における顕著な応用は、強化学習における政策評価問題である。
論文 参考訳(メタデータ) (2020-11-15T04:05:22Z) - Proximal Gradient Temporal Difference Learning: Stable Reinforcement
Learning with Polynomial Sample Complexity [40.73281056650241]
本稿では,真の勾配時間差学習アルゴリズムを設計・解析する原理的な方法として,近位勾配時間差学習を導入する。
本研究では, 従来の目的関数からではなく, 主目的関数から始めることによって, 勾配性TD強化学習法を公式に導出する方法を示す。
論文 参考訳(メタデータ) (2020-06-06T21:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。