論文の概要: Reanalysis of Variance Reduced Temporal Difference Learning
- arxiv url: http://arxiv.org/abs/2001.01898v2
- Date: Fri, 10 Jan 2020 07:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 20:18:13.166442
- Title: Reanalysis of Variance Reduced Temporal Difference Learning
- Title(参考訳): 時間差学習の分散化の再検討
- Authors: Tengyu Xu, Zhe Wang, Yi Zhou, Yingbin Liang
- Abstract要約: Korda と La が提案した分散還元型TD (VRTD) アルゴリズムは,マルコフサンプルを用いたオンラインTD学習に直接適用する。
我々は,VRTDが線形収束速度でTDの固定点解の近傍に収束することが保証されていることを示す。
- 参考スコア(独自算出の注目度): 57.150444843282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal difference (TD) learning is a popular algorithm for policy
evaluation in reinforcement learning, but the vanilla TD can substantially
suffer from the inherent optimization variance. A variance reduced TD (VRTD)
algorithm was proposed by Korda and La (2015), which applies the variance
reduction technique directly to the online TD learning with Markovian samples.
In this work, we first point out the technical errors in the analysis of VRTD
in Korda and La (2015), and then provide a mathematically solid analysis of the
non-asymptotic convergence of VRTD and its variance reduction performance. We
show that VRTD is guaranteed to converge to a neighborhood of the fixed-point
solution of TD at a linear convergence rate. Furthermore, the variance error
(for both i.i.d.\ and Markovian sampling) and the bias error (for Markovian
sampling) of VRTD are significantly reduced by the batch size of variance
reduction in comparison to those of vanilla TD. As a result, the overall
computational complexity of VRTD to attain a given accurate solution
outperforms that of TD under Markov sampling and outperforms that of TD under
i.i.d.\ sampling for a sufficiently small conditional number.
- Abstract(参考訳): 時間差(TD)学習は、強化学習における政策評価の一般的なアルゴリズムであるが、バニラTDは本質的に最適化のばらつきに悩まされる可能性がある。
Korda and La (2015) が提案した分散還元型TD (VRTD) アルゴリズムは, マルコフサンプルを用いたオンラインTD学習に直接分散還元法を適用した。
本稿では,Korda と La (2015) における VRTD の解析における技術的誤りを最初に指摘し,その非漸近収束と分散低減性能の数学的に固形解析を行う。
我々は,VRTDが線形収束速度でTDの固定点解の近傍に収束することが保証されていることを示す。
さらに、バニラTDと比較して分散低減のバッチサイズによって、分散誤差(i.d.\とマルコフサンプリングの両方)とVRTDのバイアス誤差(マルコフサンプリング)が著しく減少する。
結果として、与えられた正確な解がマルコフサンプリングの下でのTDよりも優れ、かつ十分小さな条件数でサンプリングされたTDよりも優れた、VRTDの全体的な計算複雑性が得られる。
関連論文リスト
- Finite Time Analysis of Temporal Difference Learning for Mean-Variance in a Discounted MDP [1.0923877073891446]
割引報酬マルコフ決定プロセスにおける分散政策評価の問題点を考察する。
本稿では,線形関数近似(LFA)を用いた時間差分型学習アルゴリズムについて述べる。
平均二乗の意味で(i) を保持する有限標本境界と、(ii) テールイテレート平均化を用いる場合の高い確率を導出する。
論文 参考訳(メタデータ) (2024-06-12T05:49:53Z) - TIC-TAC: A Framework for Improved Covariance Estimation in Deep Heteroscedastic Regression [109.69084997173196]
奥行き回帰は、予測分布の平均と共分散を負の対数類似度を用いて共同最適化する。
近年の研究では, 共分散推定に伴う課題により, 準最適収束が生じる可能性が示唆されている。
1)予測共分散は予測平均のランダム性を真に捉えているか?
その結果, TICは共分散を正確に学習するだけでなく, 負の対数類似性の収束性の向上も促進することがわかった。
論文 参考訳(メタデータ) (2023-10-29T09:54:03Z) - Stable Target Field for Reduced Variance Score Estimation in Diffusion
Models [5.9115407007859755]
拡散モデルは、固定された前方拡散過程を反転させてサンプルを生成する。
このような分散の源泉は、中間雑音分散スケールの取り扱いにあると論じる。
より安定したトレーニングターゲットとして重み付けされた条件スコアを計算するために使用する参照バッチを組み込むことにより、この問題を修復することを提案する。
論文 参考訳(メタデータ) (2023-02-01T18:57:01Z) - Closing the gap between SVRG and TD-SVRG with Gradient Splitting [17.071971639540976]
時間差(TD)学習は、分散還元法により性能を向上できる強化学習における政策評価である。
最近の研究は、TD学習の解釈を、適切に選択された関数の勾配の分割として利用し、アルゴリズムを簡素化し、SVRGとTDを融合させる。
本研究の主な成果は,1/8ドルの学習率を持つ幾何学的収束であり,凸条件下でSVRGが利用できる収束値と同一である。
論文 参考訳(メタデータ) (2022-11-29T14:21:34Z) - DR-DSGD: A Distributionally Robust Decentralized Learning Algorithm over
Graphs [54.08445874064361]
本稿では,分散環境下での正規化された分散ロバストな学習問題を解くことを提案する。
Kullback-Liebler正規化関数をロバストなmin-max最適化問題に追加することにより、学習問題を修正されたロバストな問題に還元することができる。
提案アルゴリズムは, 最低分布検定精度を最大10%向上できることを示す。
論文 参考訳(メタデータ) (2022-08-29T18:01:42Z) - Importance Sampling Placement in Off-Policy Temporal-Difference Methods [3.04585143845864]
政治以外の強化学習アルゴリズムが、単にTDターゲットではなく、TDエラー全体を補正する方法を示す。
実験では、この微妙な修正によってパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2022-03-18T21:54:09Z) - Learning from Noisy Labels via Dynamic Loss Thresholding [69.61904305229446]
我々はDLT(Dynamic Loss Thresholding)という新しい手法を提案する。
トレーニングプロセス中、DLTは各サンプルの損失値を記録し、動的損失閾値を算出する。
CIFAR-10/100 と Clothing1M の実験は、最近の最先端手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-04-01T07:59:03Z) - Variance-Reduced Off-Policy TDC Learning: Non-Asymptotic Convergence
Analysis [27.679514676804057]
オフ・ポリシー・セッティングにおける2つの時間スケールTDCアルゴリズムの分散化手法を開発した。
実験により,提案した分散還元型TDCは,従来のTDCと分散還元型TDよりも収束誤差が小さいことを示した。
論文 参考訳(メタデータ) (2020-10-26T01:33:05Z) - Detached Error Feedback for Distributed SGD with Random Sparsification [98.98236187442258]
コミュニケーションのボトルネックは、大規模なディープラーニングにおいて重要な問題である。
非効率な分散問題に対する誤りフィードバックよりも優れた収束性を示す分散誤差フィードバック(DEF)アルゴリズムを提案する。
また、DEFよりも優れた境界を示すDEFの一般化を加速するDEFAを提案する。
論文 参考訳(メタデータ) (2020-04-11T03:50:59Z) - Simple and Effective Prevention of Mode Collapse in Deep One-Class
Classification [93.2334223970488]
深部SVDDにおける超球崩壊を防止するための2つの正則化器を提案する。
第1の正則化器は、標準のクロスエントロピー損失によるランダムノイズの注入に基づいている。
第2の正規化器は、小さすぎるとミニバッチ分散をペナライズする。
論文 参考訳(メタデータ) (2020-01-24T03:44:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。