論文の概要: Accelerated Distributional Temporal Difference Learning with Linear Function Approximation
- arxiv url: http://arxiv.org/abs/2511.12688v1
- Date: Sun, 16 Nov 2025 17:09:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.480897
- Title: Accelerated Distributional Temporal Difference Learning with Linear Function Approximation
- Title(参考訳): 線形関数近似を用いた分布時間差学習の高速化
- Authors: Kaicheng Jin, Yang Peng, Jiansheng Yang, Zhihua Zhang,
- Abstract要約: 線形関数近似を用いた分布時間差(TD)学習の有限サンプル統計率について検討した。
我々の理論的結果は、線形関数近似を用いた分布的TD学習を採用する場合、ストリーミングデータから戻り関数の完全な分布を学習することが、期待値の学習よりも難しくないことを示唆している。
- 参考スコア(独自算出の注目度): 18.808136833869195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the finite-sample statistical rates of distributional temporal difference (TD) learning with linear function approximation. The purpose of distributional TD learning is to estimate the return distribution of a discounted Markov decision process for a given policy. Previous works on statistical analysis of distributional TD learning focus mainly on the tabular case. We first consider the linear function approximation setting and conduct a fine-grained analysis of the linear-categorical Bellman equation. Building on this analysis, we further incorporate variance reduction techniques in our new algorithms to establish tight sample complexity bounds independent of the support size $K$ when $K$ is large. Our theoretical results imply that, when employing distributional TD learning with linear function approximation, learning the full distribution of the return function from streaming data is no more difficult than learning its expectation. This work provide new insights into the statistical efficiency of distributional reinforcement learning algorithms.
- Abstract(参考訳): 本稿では,線形関数近似を用いた分布時間差(TD)学習の有限サンプル統計率について検討する。
分散的TD学習の目的は、あるポリシーに対する割引マルコフ決定プロセスの戻り分布を推定することである。
分布型TD学習の統計的解析に関する従来の研究は、主に表のケースに焦点をあてている。
まず、線形関数近似の設定を検討し、線形カテゴリーベルマン方程式のきめ細かい解析を行う。
この分析に基づいて、我々は新しいアルゴリズムに分散低減手法を組み込んで、K$が大きければサポートサイズが$K$とは無関係に、厳密なサンプル複雑性境界を確立する。
我々の理論的結果は、線形関数近似を用いた分布的TD学習を採用する場合、ストリーミングデータから戻り関数の完全な分布を学習することが、期待値の学習よりも難しくないことを示唆している。
本研究は,分布強化学習アルゴリズムの統計的効率に関する新たな知見を提供する。
関連論文リスト
- A Finite Sample Analysis of Distributional TD Learning with Linear Function Approximation [21.999445060856278]
線形関数近似を用いた分布時間差(TD)学習の有限サンプル統計率について検討した。
この結果から,分布強化学習アルゴリズムの統計的効率に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2025-02-20T00:53:22Z) - Uncertainty quantification for Markov chain induced martingales with application to temporal difference learning [55.197497603087065]
線形関数近似を用いた時間差分学習アルゴリズムの性能解析を行った。
マルコフ連鎖によって誘導されるベクトル値マルティンタに対する新規で一般的な高次元濃度不等式とベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2025-02-19T15:33:55Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [55.80276145563105]
The statistics properties of Temporal difference learning with Polyak-Ruppert averaging。
3つの理論的な貢献により、現在の最先端の成果が向上する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Bellman Unbiasedness: Toward Provably Efficient Distributional Reinforcement Learning with General Value Function Approximation [8.378137704007038]
有限エピソードマルコフ決定過程における一般値関数近似を用いた分布強化学習の後悔の解析を行った。
証明可能なアルゴリズムである$textttSF-LSVI$を提案し、$tildeO(d_E Hfrac32sqrtK)$で、$H$は地平線、$K$はエピソード数、$d_E$は関数クラスの退化次元である。
論文 参考訳(メタデータ) (2024-07-31T00:43:51Z) - Nonparametric Linear Feature Learning in Regression Through Regularisation [0.0]
連立線形特徴学習と非パラメトリック関数推定のための新しい手法を提案する。
代替最小化を用いることで、データを反復的に回転させ、先頭方向との整合性を改善する。
提案手法の予測リスクは,最小限の仮定と明示的なレートで最小限のリスクに収束することを確認した。
論文 参考訳(メタデータ) (2023-07-24T12:52:55Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。