論文の概要: Policy Mirror Descent with Temporal Difference Learning: Sample Complexity under Online Markov Data
- arxiv url: http://arxiv.org/abs/2512.24056v1
- Date: Tue, 30 Dec 2025 07:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.316923
- Title: Policy Mirror Descent with Temporal Difference Learning: Sample Complexity under Online Markov Data
- Title(参考訳): 時間差学習を伴う政策鏡-オンラインマルコフデータに基づくサンプル複雑度
- Authors: Wenye Li, Hongxu Chen, Jiacai Liu, Ke Wei,
- Abstract要約: 本稿では,強化学習における一般的な政策最適化フレームワークであるPMD法について検討する。
expected TD-PMD と Approximate TD-PMD という2つのアルゴリズムが提案されている。
- 参考スコア(独自算出の注目度): 7.423079681233031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper studies the policy mirror descent (PMD) method, which is a general policy optimization framework in reinforcement learning and can cover a wide range of policy gradient methods by specifying difference mirror maps. Existing sample complexity analysis for policy mirror descent either focuses on the generative sampling model, or the Markovian sampling model but with the action values being explicitly approximated to certain pre-specified accuracy. In contrast, we consider the sample complexity of policy mirror descent with temporal difference (TD) learning under the Markovian sampling model. Two algorithms called Expected TD-PMD and Approximate TD-PMD have been presented, which are off-policy and mixed policy algorithms respectively. Under a small enough constant policy update step size, the $\tilde{O}(\varepsilon^{-2})$ (a logarithm factor about $\varepsilon$ is hidden in $\tilde{O}(\cdot)$) sample complexity can be established for them to achieve average-time $\varepsilon$-optimality. The sample complexity is further improved to $O(\varepsilon^{-2})$ (without the hidden logarithm factor) to achieve the last-iterate $\varepsilon$-optimality based on adaptive policy update step sizes.
- Abstract(参考訳): 本稿では、強化学習における一般的なポリシー最適化フレームワークであるPMD法について検討し、差分ミラーマップを指定して、幅広いポリシー勾配法をカバーすることができる。
既存のサンプル複雑性解析は、生成サンプリングモデルかマルコフサンプリングモデルに焦点をあてるが、アクション値は特定の特定の精度に明示的に近似される。
対照的に、マルコフサンプリングモデルの下で、時間差(TD)学習を伴うポリシーミラー降下のサンプル複雑性を考察する。
expected TD-PMD と Approximate TD-PMD という2つのアルゴリズムが提案されている。
十分小さな定数ポリシー更新ステップサイズの下では、$\tilde{O}(\varepsilon^{-2})$ ($\varepsilon$の対数係数は$\tilde{O}(\cdot)$のサンプル複雑性に隠れており、平均的な$\varepsilon$-optimalityを達成することができる。
サンプルの複雑さはさらに$O(\varepsilon^{-2})$(隠された対数係数なしで)に改善され、アダプティブポリシー更新ステップサイズに基づいて、最後のイテレートの$\varepsilon$-Optimalityを達成する。
関連論文リスト
- On the Convergence of Policy Mirror Descent with Temporal Difference Evaluation [5.185426731431962]
政策ミラー降下(PMD)は、強化学習における一般的な政策最適化フレームワークである。
時間差評価(TD-PMD)を用いた政策ミラー降下の検討
論文 参考訳(メタデータ) (2025-09-23T09:11:03Z) - Model-free Low-Rank Reinforcement Learning via Leveraged Entry-wise Matrix Estimation [48.92318828548911]
政策改善と政策評価の段階を交互に行うモデルフリー学習アルゴリズムであるLoRa-PI(Low-Rank Policy Iteration)を提案する。
LoRa-PIは$widetildeO(S+Aover mathrmpoly (1-gamma)varepsilon2)$サンプルを使用して$varepsilon$-optimal Policyを学習する。
論文 参考訳(メタデータ) (2024-10-30T20:22:17Z) - Finding good policies in average-reward Markov Decision Processes without prior knowledge [19.89784209009327]
平均回帰決定(MDP)における$varepsilon$-Optimal Policyの同定を再考する。
直径推定法を用いて,$(varepsilon,delta)$-PAC-PACポリシー識別のための最初のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-27T12:24:14Z) - Projection by Convolution: Optimal Sample Complexity for Reinforcement Learning in Continuous-Space MDPs [56.237917407785545]
本稿では,円滑なベルマン作用素を持つ連続空間マルコフ決定過程(MDP)の一般クラスにおいて,$varepsilon$-optimal Policyを学習する問題を考察する。
我々のソリューションの鍵となるのは、調和解析のアイデアに基づく新しい射影技術である。
我々の結果は、連続空間 MDP における2つの人気と矛盾する視点のギャップを埋めるものである。
論文 参考訳(メタデータ) (2024-05-10T09:58:47Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Efficiently Solving MDPs with Stochastic Mirror Descent [38.30919646721354]
線形モデルに与えられた無限水平マルコフ決定過程(MDP)を近似的に解くための統一的な枠組みを提案する。
これらの結果は、より一般的なミラー降下フレームワークを用いて、単純なドメインとボックスドメインで大域的なサドルポイント問題を解くことによって達成される。
論文 参考訳(メタデータ) (2020-08-28T17:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。