論文の概要: Accelerated Distributional Temporal Difference Learning with Linear Function Approximation
- arxiv url: http://arxiv.org/abs/2511.12688v1
- Date: Sun, 16 Nov 2025 17:09:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.480897
- Title: Accelerated Distributional Temporal Difference Learning with Linear Function Approximation
- Title(参考訳): 線形関数近似を用いた分布時間差学習の高速化
- Authors: Kaicheng Jin, Yang Peng, Jiansheng Yang, Zhihua Zhang,
- Abstract要約: 線形関数近似を用いた分布時間差(TD)学習の有限サンプル統計率について検討した。
我々の理論的結果は、線形関数近似を用いた分布的TD学習を採用する場合、ストリーミングデータから戻り関数の完全な分布を学習することが、期待値の学習よりも難しくないことを示唆している。
- 参考スコア(独自算出の注目度): 18.808136833869195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we study the finite-sample statistical rates of distributional temporal difference (TD) learning with linear function approximation. The purpose of distributional TD learning is to estimate the return distribution of a discounted Markov decision process for a given policy. Previous works on statistical analysis of distributional TD learning focus mainly on the tabular case. We first consider the linear function approximation setting and conduct a fine-grained analysis of the linear-categorical Bellman equation. Building on this analysis, we further incorporate variance reduction techniques in our new algorithms to establish tight sample complexity bounds independent of the support size $K$ when $K$ is large. Our theoretical results imply that, when employing distributional TD learning with linear function approximation, learning the full distribution of the return function from streaming data is no more difficult than learning its expectation. This work provide new insights into the statistical efficiency of distributional reinforcement learning algorithms.
- Abstract(参考訳): 本稿では,線形関数近似を用いた分布時間差(TD)学習の有限サンプル統計率について検討する。
分散的TD学習の目的は、あるポリシーに対する割引マルコフ決定プロセスの戻り分布を推定することである。
分布型TD学習の統計的解析に関する従来の研究は、主に表のケースに焦点をあてている。
まず、線形関数近似の設定を検討し、線形カテゴリーベルマン方程式のきめ細かい解析を行う。
この分析に基づいて、我々は新しいアルゴリズムに分散低減手法を組み込んで、K$が大きければサポートサイズが$K$とは無関係に、厳密なサンプル複雑性境界を確立する。
我々の理論的結果は、線形関数近似を用いた分布的TD学習を採用する場合、ストリーミングデータから戻り関数の完全な分布を学習することが、期待値の学習よりも難しくないことを示唆している。
本研究は,分布強化学習アルゴリズムの統計的効率に関する新たな知見を提供する。
関連論文リスト
- A Simplified Analysis of SGD for Linear Regression with Weight Averaging [64.2393952273612]
最近の研究は、定常学習率を用いた線形回帰におけるSGD最適化のためのシャープレートを提供する。
簡単な線形代数ツールを用いて,2021ベニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグニグナグニグニグニグニグニグニグニグニグニグニグネグニグニグニグニグネグニグニグネグニ
我々の研究は線形回帰の勾配勾配を非常に容易に解析し、ミニバッチと学習率のスケジューリングのさらなる分析に役立てることができると信じている。
論文 参考訳(メタデータ) (2025-06-18T15:10:38Z) - A Finite Sample Analysis of Distributional TD Learning with Linear Function Approximation [21.999445060856278]
線形関数近似を用いた分布時間差(TD)学習の有限サンプル統計率について検討した。
この結果から,分布強化学習アルゴリズムの統計的効率に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2025-02-20T00:53:22Z) - Uncertainty quantification for Markov chain induced martingales with application to temporal difference learning [55.197497603087065]
線形関数近似を用いた時間差分学習アルゴリズムの性能解析を行った。
マルコフ連鎖によって誘導されるベクトル値マルティンタに対する新規で一般的な高次元濃度不等式とベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2025-02-19T15:33:55Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [55.80276145563105]
The statistics properties of Temporal difference learning with Polyak-Ruppert averaging。
3つの理論的な貢献により、現在の最先端の成果が向上する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Bellman Unbiasedness: Toward Provably Efficient Distributional Reinforcement Learning with General Value Function Approximation [8.378137704007038]
有限エピソードマルコフ決定過程における一般値関数近似を用いた分布強化学習の後悔の解析を行った。
証明可能なアルゴリズムである$textttSF-LSVI$を提案し、$tildeO(d_E Hfrac32sqrtK)$で、$H$は地平線、$K$はエピソード数、$d_E$は関数クラスの退化次元である。
論文 参考訳(メタデータ) (2024-07-31T00:43:51Z) - An MRP Formulation for Supervised Learning: Generalized Temporal Difference Learning Models [20.314426291330278]
従来の統計的学習では、データポイントは独立して同じ分布であると仮定される。
本稿では,データポイントを相互に知覚するコントラスト的視点を提案する。
一般化時間差(TD)学習アルゴリズムを解法として導入する。
論文 参考訳(メタデータ) (2024-04-23T21:02:58Z) - Nonparametric Linear Feature Learning in Regression Through Regularisation [0.0]
連立線形特徴学習と非パラメトリック関数推定のための新しい手法を提案する。
代替最小化を用いることで、データを反復的に回転させ、先頭方向との整合性を改善する。
提案手法の予測リスクは,最小限の仮定と明示的なレートで最小限のリスクに収束することを確認した。
論文 参考訳(メタデータ) (2023-07-24T12:52:55Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - Estimates on Learning Rates for Multi-Penalty Distribution Regression [5.999239529678357]
本研究では,学習理論の枠組みに基づく分散回帰のためのマルチペナルティ正規化アルゴリズムについて検討する。
Hilbert 空間 $mathcalH_K$ と Mercer カーネル $K$ を平均埋め込み技術により再現する。
この研究は、既存の文献では研究されていない非標準設定$f_rhonotinmathcalH_K$における分布回帰の学習率も導出している。
論文 参考訳(メタデータ) (2020-06-16T09:31:58Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。