論文の概要: Taylor TD-learning
- arxiv url: http://arxiv.org/abs/2302.14182v2
- Date: Wed, 18 Oct 2023 11:45:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 20:52:57.812075
- Title: Taylor TD-learning
- Title(参考訳): Taylor TD ラーニング
- Authors: Michele Garibbo, Maxime Robeyns and Laurence Aitchison
- Abstract要約: モデルベースのフレームワークであるTaylor TDを導入し、連続的な状態-動作設定におけるこの分散を低減します。
Taylor TDは、TD更新の1階目のTaylorシリーズ拡張を使用している。
我々はTaylor TDが線形関数近似を用いた標準TD学習と同じ安定した学習保証を持つことを示す。
- 参考スコア(独自算出の注目度): 25.958907308877148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many reinforcement learning approaches rely on temporal-difference (TD)
learning to learn a critic. However, TD-learning updates can be high variance.
Here, we introduce a model-based RL framework, Taylor TD, which reduces this
variance in continuous state-action settings. Taylor TD uses a first-order
Taylor series expansion of TD updates. This expansion allows Taylor TD to
analytically integrate over stochasticity in the action-choice, and some
stochasticity in the state distribution for the initial state and action of
each TD update. We include theoretical and empirical evidence that Taylor TD
updates are indeed lower variance than standard TD updates. Additionally, we
show Taylor TD has the same stable learning guarantees as standard TD-learning
with linear function approximation under a reasonable assumption. Next, we
combine Taylor TD with the TD3 algorithm, forming TaTD3. We show TaTD3 performs
as well, if not better, than several state-of-the art model-free and
model-based baseline algorithms on a set of standard benchmark tasks.
- Abstract(参考訳): 多くの強化学習アプローチは、批判を学ぶために時間差学習(TD)に依存している。
しかし、td-learningのアップデートは大きなばらつきがある。
本稿では,モデルに基づくRLフレームワークであるTaylor TDを紹介する。
Taylor TDは、TD更新の1階目のTaylorシリーズ拡張を使用している。
この拡張により、Taylor TDはアクション選択における確率性と、各TD更新の初期状態と動作に対する状態分布における確率性を解析的に統合することができる。
Taylor TD 更新が標準 TD 更新よりも実際に低い分散であるという理論的および経験的な証拠を含む。
さらに,Taylor TDは線形関数近似を用いた標準TD学習と同じ安定な学習保証を持つことを示す。
次にTaylor TDとTD3アルゴリズムを組み合わせてTaTD3を生成する。
TaTD3は、標準的なベンチマークタスクのセット上で、最先端のモデルフリーおよびモデルベースラインアルゴリズムよりも優れたパフォーマンスを示す。
関連論文リスト
- ExPLoRA: Parameter-Efficient Extended Pre-Training to Adapt Vision Transformers under Domain Shifts [52.1635661239108]
本稿では,事前学習された視覚変換器(ViT)のドメインシフト下での伝達学習を改善するために,ExPLoRAを提案する。
我々の実験は、衛星画像の最先端の成果を実証し、完全な事前学習や微調整のViTよりも優れています。
論文 参考訳(メタデータ) (2024-06-16T15:14:56Z) - Multi-State TD Target for Model-Free Reinforcement Learning [3.9801926395657325]
時間差(TD)学習は、状態または状態-作用ペアの値推定を更新する強化学習の基本的な技術である。
本稿では、その後の複数の状態の推定値を利用する拡張多状態TD(MSTD)ターゲットを提案する。
論文 参考訳(メタデータ) (2024-05-26T11:17:49Z) - SteinDreamer: Variance Reduction for Text-to-3D Score Distillation via Stein Identity [70.32101198891465]
スコア蒸留における勾配推定は, 分散度が高いことが示唆された。
本稿では,Stin Score Distillation (SSD) と呼ばれる,スコア蒸留の分散を低減するための,より一般的な解を提案する。
我々はSteinDreamerがより安定した勾配更新により既存の方法よりも高速に収束できることを実証した。
論文 参考訳(メタデータ) (2023-12-31T23:04:25Z) - TD Convergence: An Optimization Perspective [16.12613645083317]
本稿では,TD学習アルゴリズムの収束挙動について検討する。
この結果から, 強化学習におけるTDの有効利用の理論的説明が得られた。
論文 参考訳(メタデータ) (2023-06-30T16:01:04Z) - Truncated Emphatic Temporal Difference Methods for Prediction and
Control [77.58311033916661]
強調的テンポラルラーニング(英語: Emphatic Temporal Learning, TD)は、追従トレースの使用を含む非政治強化ラーニング(英語版)(RL)手法のクラスである。
本稿では,強調的TD法において,truncated followingon tracesを用いて3つの問題を同時に解決する。
論文 参考訳(メタデータ) (2021-08-11T17:26:38Z) - Preferential Temporal Difference Learning [53.81943554808216]
本稿では,TD更新における状態の再重み付け手法を提案する。
本手法は線形関数近似に収束し,他のTDスタイルの手法と比較して望ましい経験的挙動を示す。
論文 参考訳(メタデータ) (2021-06-11T17:05:15Z) - TaylorGAN: Neighbor-Augmented Policy Update for Sample-Efficient Natural
Language Generation [79.4205462326301]
TaylorGANは関数ベースの自然言語生成のための新しいアプローチである。
オフポリシー更新による勾配推定と1階のTaylor拡張が強化される。
これにより、より小さなバッチサイズで、スクラッチからNLGモデルをトレーニングすることができます。
論文 参考訳(メタデータ) (2020-11-27T02:26:15Z) - Reducing Sampling Error in Batch Temporal Difference Learning [42.30708351947417]
時間差学習(TD)は現代の強化学習の基盤の1つである。
本稿では、標準的TDアルゴリズムであるTD(0)を用いて、与えられたポリシーの値関数をデータのバッチから推定する。
論文 参考訳(メタデータ) (2020-08-15T15:30:06Z) - Gradient Temporal-Difference Learning with Regularized Corrections [28.087160600706948]
正規化補正(TDRC)を用いた新しいTD法を提案する。
TDがうまく機能するとTDと同様に振る舞うが、TDが分岐する場合には音が聞こえる。
また,TD法とQ-ラーニング法を併用すれば,TD法とQ-ラーニング法を併用できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-07-01T16:56:56Z) - Adaptive Temporal Difference Learning with Linear Function Approximation [29.741034258674205]
本稿では,強化学習における政策評価タスクにおける時間差(TD)学習アルゴリズムを再検討する。
線形関数近似を用いたTD(0)学習アルゴリズムの確率収束適応型射影多様体を開発した。
いくつかの標準強化学習タスクにおいて,AdaTD(0)とAdaTD($lambda$)の性能を評価する。
論文 参考訳(メタデータ) (2020-02-20T02:32:40Z) - Reanalysis of Variance Reduced Temporal Difference Learning [57.150444843282]
Korda と La が提案した分散還元型TD (VRTD) アルゴリズムは,マルコフサンプルを用いたオンラインTD学習に直接適用する。
我々は,VRTDが線形収束速度でTDの固定点解の近傍に収束することが保証されていることを示す。
論文 参考訳(メタデータ) (2020-01-07T05:32:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。