論文の概要: Stability and Sensitivity Analysis of Relative Temporal-Difference Learning: Extended Version
- arxiv url: http://arxiv.org/abs/2603.27874v2
- Date: Tue, 07 Apr 2026 15:04:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 15:04:55.34726
- Title: Stability and Sensitivity Analysis of Relative Temporal-Difference Learning: Extended Version
- Title(参考訳): 相対時間差学習の安定性と感度分析:拡張版
- Authors: Masoud S. Sakha, Rushikesh Kamalapurkar, Sean Meyn,
- Abstract要約: 相対時間差学習(TD)は、割引係数が1に近づくと、TD法の緩やかな収束に導入された。
本稿では,線形関数近似を用いて相対的TD学習を分析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Relative temporal-difference (TD) learning was introduced to mitigate the slow convergence of TD methods when the discount factor approaches one by subtracting a baseline from the temporal-difference update. While this idea has been studied in the tabular setting, stability guarantees with function approximation remain poorly understood. This paper analyzes relative TD learning with linear function approximation. We establish stability conditions for the algorithm and show that the choice of baseline distribution plays a central role. In particular, when the baseline is chosen as the empirical distribution of the state-action process, the algorithm is stable for any non-negative baseline weight and any discount factor. We also provide a sensitivity analysis of the resulting parameter estimates, characterizing both asymptotic bias and covariance. The asymptotic covariance and asymptotic bias are shown to remain uniformly bounded as the discount factor approaches one.
- Abstract(参考訳): 時間差分更新から基準線を減じて、割引係数が1に近づくと、TD法の緩やかな収束を緩和するために、相対時間差分学習(TD)を導入した。
この考え方は表形式で研究されているが、関数近似による安定性の保証はいまだに理解されていない。
本稿では,線形関数近似を用いて相対的TD学習を分析する。
我々は,アルゴリズムの安定性条件を確立し,ベースライン分布の選択が中心的な役割を果たすことを示す。
特に、ベースラインが状態-作用過程の実験的分布として選択された場合、アルゴリズムは非負のベースライン重みと割引係数に対して安定である。
また、漸近バイアスと共分散の両方を特徴付けるパラメータ推定結果の感度解析を行った。
漸近的共分散と漸近的偏差は、割引係数が1に近づくにつれて一様に保たれる。
関連論文リスト
- The ODE Method for Stochastic Approximation and Reinforcement Learning with Markovian Noise [23.71604056844816]
近似アルゴリズムを解析する根本的な課題は、その安定性を確立することである。
我々は、マルティンゲール差分雑音設定からマルコフ雑音設定へ有界な安定性に対するボルカール・メインの定理を拡張した。
論文 参考訳(メタデータ) (2024-01-15T17:20:17Z) - A Stability Principle for Learning under Non-Stationarity [1.1510009152620668]
非定常環境における統計的学習のための多目的フレームワークを開発する。
我々は、人口損失が強く凸している場合やリプシッツのみにおいて、最小限の最小値である後悔境界を対数的要因まで証明する。
本研究は,需要予測と病院看護スタッフの実際のデータ実験を通じて,本手法の実用性を評価する。
論文 参考訳(メタデータ) (2023-10-27T17:53:53Z) - Non-Parametric Learning of Stochastic Differential Equations with Non-asymptotic Fast Rates of Convergence [65.63201894457404]
非線形微分方程式のドリフトと拡散係数の同定のための新しい非パラメトリック学習パラダイムを提案する。
鍵となる考え方は、基本的には、対応するフォッカー・プランク方程式のRKHSに基づく近似をそのような観測に適合させることである。
論文 参考訳(メタデータ) (2023-05-24T20:43:47Z) - Data-Driven Influence Functions for Optimization-Based Causal Inference [105.5385525290466]
統計的汎関数に対するガトー微分を有限差分法で近似する構成的アルゴリズムについて検討する。
本研究では,確率分布を事前知識がないが,データから推定する必要がある場合について検討する。
論文 参考訳(メタデータ) (2022-08-29T16:16:22Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。