論文の概要: Finite Sample Analysis of Distributional TD Learning with Linear Function Approximation
- arxiv url: http://arxiv.org/abs/2502.14172v1
- Date: Thu, 20 Feb 2025 00:53:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:29:35.180523
- Title: Finite Sample Analysis of Distributional TD Learning with Linear Function Approximation
- Title(参考訳): 線形関数近似を用いた分布型TD学習の有限サンプル解析
- Authors: Yang Peng, Kaicheng Jin, Liangyu Zhang, Zhihua Zhang,
- Abstract要約: 線形分布型TD学習の複雑さは古典的線形TD学習の複雑さと一致することを示す。
本研究は,分布強化学習アルゴリズムの統計的効率に関する新たな知見を提供する。
- 参考スコア(独自算出の注目度): 21.999445060856278
- License:
- Abstract: In this paper, we investigate the finite-sample statistical rates of distributional temporal difference (TD) learning with linear function approximation. The aim of distributional TD learning is to estimate the return distribution of a discounted Markov decision process for a given policy {\pi}. Prior works on statistical analysis of distributional TD learning mainly focus on the tabular case. In contrast, we first consider the linear function approximation setting and derive sharp finite-sample rates. Our theoretical results demonstrate that the sample complexity of linear distributional TD learning matches that of the classic linear TD learning. This implies that, with linear function approximation, learning the full distribution of the return using streaming data is no more difficult than learning its expectation (i.e. the value function). To derive tight sample complexity bounds, we conduct a fine-grained analysis of the linear-categorical Bellman equation, and employ the exponential stability arguments for products of random matrices. Our findings provide new insights into the statistical efficiency of distributional reinforcement learning algorithms.
- Abstract(参考訳): 本稿では,線形関数近似を用いた分布時間差(TD)学習における有限サンプル統計率について検討する。
分散的TD学習の目的は、所定のポリシ {\pi} に対して、割引マルコフ決定プロセスの戻り分布を推定することである。
分布型TD学習の統計解析に関する先行研究は、主に表の場合に焦点を当てている。
対照的に、線形関数近似の設定をまず考慮し、鋭い有限サンプル率を導出する。
線形分布型TD学習の複雑さは古典的線形TD学習の複雑さと一致することを示した。
これは、線形関数近似を用いて、ストリーミングデータを用いて戻り値の完全な分布を学習することが、期待値(すなわち値関数)を学ぶことよりも難しくないことを意味する。
厳密なサンプル複雑性境界を導出するために、線形カテゴリーベルマン方程式のきめ細かい解析を行い、ランダム行列の積に対して指数的安定性の議論を用いる。
本研究は,分布強化学習アルゴリズムの統計的効率に関する新たな知見を提供する。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
The consistency properties of TD learning with Polyak-Ruppert averaging and linear function approximation。
まず、分散に明示的に依存し、弱い条件下で保持する新しい高次元確率収束保証を導出する。
さらに、文献よりも高速な速度を保証する凸集合のクラスに対して、洗練された高次元ベリー-エッセイン境界を確立する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Learning Latent Graph Structures and their Uncertainty [63.95971478893842]
グラフニューラルネットワーク(GNN)は、モデル精度を高めるために帰納バイアスとしてリレーショナル情報を使用する。
課題関連関係が不明なため,下流予測タスクを解きながら学習するためのグラフ構造学習手法が提案されている。
論文 参考訳(メタデータ) (2024-05-30T10:49:22Z) - An MRP Formulation for Supervised Learning: Generalized Temporal Difference Learning Models [20.314426291330278]
従来の統計的学習では、データポイントは独立して同じ分布(d)であると仮定される。
本稿では、データポイントを相互接続したものとして認識し、データモデリングにマルコフ報酬プロセス(MRP)を用いる、対照的な視点を示す。
我々は、強化学習(RL)における政治政策評価問題として、典型的教師付き学習を再構成し、一般化時間差学習アルゴリズム(TD)を解法として導入する。
論文 参考訳(メタデータ) (2024-04-23T21:02:58Z) - Sampling Multimodal Distributions with the Vanilla Score: Benefits of
Data-Based Initialization [19.19974210314107]
Hyv"arinen氏は、データから分布を学ぶ方法として、バニラスコアマッチングを提案した。
実験的な分布において, 早期停止を伴うランゲヴィン拡散を証明し, データから推定したスコア関数上で実行することで, 自然マルチモーダル分布の生成に成功した。
論文 参考訳(メタデータ) (2023-10-03T03:06:59Z) - Nonparametric Linear Feature Learning in Regression Through Regularisation [0.0]
連立線形特徴学習と非パラメトリック関数推定のための新しい手法を提案する。
代替最小化を用いることで、データを反復的に回転させ、先頭方向との整合性を改善する。
提案手法の予測リスクは,最小限の仮定と明示的なレートで最小限のリスクに収束することを確認した。
論文 参考訳(メタデータ) (2023-07-24T12:52:55Z) - Offline Reinforcement Learning with Differentiable Function
Approximation is Provably Efficient [65.08966446962845]
歴史的データを用いて意思決定戦略を最適化することを目的としたオフライン強化学習は、現実の応用に広く適用されている。
微分関数クラス近似(DFA)を用いたオフライン強化学習の検討から一歩踏み出した。
最も重要なことは、悲観的な適合Q-ラーニングアルゴリズムを解析することにより、オフライン微分関数近似が有効であることを示すことである。
論文 参考訳(メタデータ) (2022-10-03T07:59:42Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Distributionally Robust Learning [11.916893752969429]
本書は,データの摂動に頑健な包括的統計学習フレームワークを開発する。
各問題に対する引き込み可能なDRO緩和が導出され、境界と正規化の間の接続が確立される。
理論以外にも、数値実験や、合成データと実データを用いたケーススタディも含んでいる。
論文 参考訳(メタデータ) (2021-08-20T04:14:18Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。