論文の概要: Taylor TD-learning
- arxiv url: http://arxiv.org/abs/2302.14182v1
- Date: Mon, 27 Feb 2023 22:46:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 18:52:41.277027
- Title: Taylor TD-learning
- Title(参考訳): Taylor TD ラーニング
- Authors: Michele Garibbo, Maxime Robeyns and Laurence Aitchison
- Abstract要約: モデルに基づくRLフレームワークであるTaylor TDを導入し、この分散を小さくする。
Taylor TDは、TD更新の1階目のTaylorシリーズ拡張を使用している。
我々はTaylor TDが(標準)TD学習と同じ安定した学習保証を持つことを示した。
- 参考スコア(独自算出の注目度): 27.470555177587993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many reinforcement learning approaches rely on temporal-difference (TD)
learning to learn a critic. However, TD-learning updates can be high variance
due to their sole reliance on Monte Carlo estimates of the updates. Here, we
introduce a model-based RL framework, Taylor TD, which reduces this variance.
Taylor TD uses a first-order Taylor series expansion of TD updates. This
expansion allows to analytically integrate over stochasticity in the
action-choice, and some stochasticity in the state distribution for the initial
state and action of each TD update. We include theoretical and empirical
evidence of Taylor TD updates being lower variance than (standard) TD updates.
Additionally, we show that Taylor TD has the same stable learning guarantees as
(standard) TD-learning under linear function approximation. Next, we combine
Taylor TD with the TD3 algorithm (Fujimoto et al., 2018), into TaTD3. We show
TaTD3 performs as well, if not better, than several state-of-the art model-free
and model-based baseline algorithms on a set of standard benchmark tasks.
Finally, we include further analysis of the settings in which Taylor TD may be
most beneficial to performance relative to standard TD-learning.
- Abstract(参考訳): 多くの強化学習アプローチは、批判を学ぶために時間差学習(TD)に依存している。
しかし、TD学習のアップデートはモンテカルロの見積にのみ依存するため、高いばらつきがある可能性がある。
本稿では,モデルに基づくRLフレームワークであるTaylor TDを紹介する。
Taylor TDは、TD更新の1階目のTaylorシリーズ拡張を使用している。
この拡張により、アクション・チョイスにおける確率性、および各td更新の初期状態と動作に対する状態分布の確率性が分析的に統合される。
我々はTaylor TD 更新が(標準的な) TD 更新よりも分散度が低いという理論的および経験的な証拠を含む。
さらに,Taylor TDは線形関数近似の下での(標準)TD学習と同じ安定した学習保証を有することを示す。
次にTaylor TDとTD3アルゴリズム(Fujimoto et al., 2018)を組み合わせる。
TaTD3は、標準的なベンチマークタスクのセット上で、最先端のモデルフリーおよびモデルベースラインアルゴリズムよりも優れたパフォーマンスを示す。
最後に、Taylor TDが標準的なTD学習と比較してパフォーマンスに最も有益であるかもしれない設定をさらに分析する。
関連論文リスト
- ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts [52.1635661239108]
本稿では,事前学習された視覚変換器(ViT)のドメインシフト下での伝達学習を改善するために,ExPLoRAを提案する。
我々の実験は、衛星画像の最先端の成果を実証し、完全な事前学習や微調整のViTよりも優れています。
論文 参考訳(メタデータ) (2024-06-16T15:14:56Z) - Multi-State TD Target for Model-Free Reinforcement Learning [3.9801926395657325]
時間差(TD)学習は、状態または状態-作用ペアの値推定を更新する強化学習の基本的な技術である。
本稿では、その後の複数の状態の推定値を利用する拡張多状態TD(MSTD)ターゲットを提案する。
論文 参考訳(メタデータ) (2024-05-26T11:17:49Z) - SteinDreamer: Variance Reduction for Text-to-3D Score Distillation via Stein Identity [70.32101198891465]
スコア蒸留における勾配推定は, 分散度が高いことが示唆された。
本稿では,Stin Score Distillation (SSD) と呼ばれる,スコア蒸留の分散を低減するための,より一般的な解を提案する。
我々はSteinDreamerがより安定した勾配更新により既存の方法よりも高速に収束できることを実証した。
論文 参考訳(メタデータ) (2023-12-31T23:04:25Z) - TD Convergence: An Optimization Perspective [16.12613645083317]
本稿では,TD学習アルゴリズムの収束挙動について検討する。
この結果から, 強化学習におけるTDの有効利用の理論的説明が得られた。
論文 参考訳(メタデータ) (2023-06-30T16:01:04Z) - Truncated Emphatic Temporal Difference Methods for Prediction and
Control [77.58311033916661]
強調的テンポラルラーニング(英語: Emphatic Temporal Learning, TD)は、追従トレースの使用を含む非政治強化ラーニング(英語版)(RL)手法のクラスである。
本稿では,強調的TD法において,truncated followingon tracesを用いて3つの問題を同時に解決する。
論文 参考訳(メタデータ) (2021-08-11T17:26:38Z) - Preferential Temporal Difference Learning [53.81943554808216]
本稿では,TD更新における状態の再重み付け手法を提案する。
本手法は線形関数近似に収束し,他のTDスタイルの手法と比較して望ましい経験的挙動を示す。
論文 参考訳(メタデータ) (2021-06-11T17:05:15Z) - TaylorGAN: Neighbor-Augmented Policy Update for Sample-Efficient Natural
Language Generation [79.4205462326301]
TaylorGANは関数ベースの自然言語生成のための新しいアプローチである。
オフポリシー更新による勾配推定と1階のTaylor拡張が強化される。
これにより、より小さなバッチサイズで、スクラッチからNLGモデルをトレーニングすることができます。
論文 参考訳(メタデータ) (2020-11-27T02:26:15Z) - Reducing Sampling Error in Batch Temporal Difference Learning [42.30708351947417]
時間差学習(TD)は現代の強化学習の基盤の1つである。
本稿では、標準的TDアルゴリズムであるTD(0)を用いて、与えられたポリシーの値関数をデータのバッチから推定する。
論文 参考訳(メタデータ) (2020-08-15T15:30:06Z) - Gradient Temporal-Difference Learning with Regularized Corrections [28.087160600706948]
正規化補正(TDRC)を用いた新しいTD法を提案する。
TDがうまく機能するとTDと同様に振る舞うが、TDが分岐する場合には音が聞こえる。
また,TD法とQ-ラーニング法を併用すれば,TD法とQ-ラーニング法を併用できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-07-01T16:56:56Z) - Adaptive Temporal Difference Learning with Linear Function Approximation [29.741034258674205]
本稿では,強化学習における政策評価タスクにおける時間差(TD)学習アルゴリズムを再検討する。
線形関数近似を用いたTD(0)学習アルゴリズムの確率収束適応型射影多様体を開発した。
いくつかの標準強化学習タスクにおいて,AdaTD(0)とAdaTD($lambda$)の性能を評価する。
論文 参考訳(メタデータ) (2020-02-20T02:32:40Z) - Reanalysis of Variance Reduced Temporal Difference Learning [57.150444843282]
Korda と La が提案した分散還元型TD (VRTD) アルゴリズムは,マルコフサンプルを用いたオンラインTD学習に直接適用する。
我々は,VRTDが線形収束速度でTDの固定点解の近傍に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-01-07T05:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。