論文の概要: TDprop: Does Jacobi Preconditioning Help Temporal Difference Learning?
- arxiv url: http://arxiv.org/abs/2007.02786v1
- Date: Mon, 6 Jul 2020 14:40:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 01:34:05.263054
- Title: TDprop: Does Jacobi Preconditioning Help Temporal Difference Learning?
- Title(参考訳): TDprop:Jacobiプレコンディショニングは時間差学習に役立つか?
- Authors: Joshua Romoff, Peter Henderson, David Kanaa, Emmanuel Bengio, Ahmed
Touati, Pierre-Luc Bacon, Joelle Pineau
- Abstract要約: 時間差学習におけるブートストラップ項を考慮に入れたJacobiプレコンディショニングが適応性向上に有効かどうかを検討する。
これは$n$-stepとTD($lambda$)の両方で使用できることを示す。
- 参考スコア(独自算出の注目度): 38.367372236580074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate whether Jacobi preconditioning, accounting for the bootstrap
term in temporal difference (TD) learning, can help boost performance of
adaptive optimizers. Our method, TDprop, computes a per parameter learning rate
based on the diagonal preconditioning of the TD update rule. We show how this
can be used in both $n$-step returns and TD($\lambda$). Our theoretical
findings demonstrate that including this additional preconditioning information
is, surprisingly, comparable to normal semi-gradient TD if the optimal learning
rate is found for both via a hyperparameter search. In Deep RL experiments
using Expected SARSA, TDprop meets or exceeds the performance of Adam in all
tested games under near-optimal learning rates, but a well-tuned SGD can yield
similar improvements -- matching our theory. Our findings suggest that Jacobi
preconditioning may improve upon typical adaptive optimization methods in Deep
RL, but despite incorporating additional information from the TD bootstrap
term, may not always be better than SGD.
- Abstract(参考訳): 時間差(TD)学習におけるブートストラップ項を考慮に入れたヤコビ事前条件は,適応最適化器の性能向上に役立つか検討する。
提案手法であるtdpropは,td更新規則の対角前条件に基づいてパラメータ当たりの学習率を計算する。
これは$n$-step リターンと td($\lambda$) の両方でどのように使えるかを示します。
理論的には、この追加の事前条件情報を含めることが、ハイパーパラメータサーチにより最適学習率が両方の場合の通常の半段階的TDに匹敵することを示す。
期待されたSARSAを用いたDeep RL実験では、TDpropは、ほぼ最適の学習速度で全てのテストゲームでAdamのパフォーマンスを達成または上回っているが、十分に調整されたSGDは、我々の理論に匹敵する同様の改善をもたらす可能性がある。
以上の結果から,Deep RLの適応最適化手法ではヤコビの事前条件が改善する可能性が示唆されたが,TDブートストラップ項の付加情報が組み込まれているにもかかわらず,必ずしもSGDより優れているとは限らない。
関連論文リスト
- Adaptive Data Exploitation in Deep Reinforcement Learning [50.53705050673944]
深層強化学習(RL)における**データ効率**と**一般化**を強化する強力なフレームワークであるADEPTを紹介する。
具体的には、ADEPTはマルチアーム・バンディット(MAB)アルゴリズムを用いて、異なる学習段階にわたるサンプルデータの使用を適応的に管理する。
Procgen、MiniGrid、PyBulletなどのベンチマークでADEPTをテストする。
論文 参考訳(メタデータ) (2025-01-22T04:01:17Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling [27.058009599819012]
本稿では,Adamスタイルにおける最適学習率とバッチサイズとの関係について検討する。
最適学習率が最初に上昇し、バッチサイズが大きくなるにつれて低下することを示す。
論文 参考訳(メタデータ) (2024-05-23T13:52:36Z) - Should I try multiple optimizers when fine-tuning pre-trained
Transformers for NLP tasks? Should I tune their hyperparameters? [14.349943044268471]
SGD(Gradient Descent)は、トレーニングのためのニューラルネットワークの選択に使用される。
学習率だけをチューニングすることは、ほとんどの場合、すべてのハイパーパラメータをチューニングするのと同じくらい良いことです。
最適なアダプティブバウンド(例えばAdam)を選択して、その学習率を推奨します。
論文 参考訳(メタデータ) (2024-02-10T13:26:14Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - An Empirical Analysis of Parameter-Efficient Methods for Debiasing
Pre-Trained Language Models [55.14405248920852]
各種言語モデルとバイアスタイプを用いたプレフィックスチューニング,プロンプトチューニング,アダプタチューニングによる実験を行い,その性能評価を行った。
パラメータ効率のよい手法は、適応調整が常に最も効果的であるジェンダーバイアスを軽減するのに有効であることがわかった。
また、早急なチューニングは、BERTよりもGPT-2に適しており、人種的・宗教的偏見に関しては、人種的・宗教的偏見が低いことが判明した。
論文 参考訳(メタデータ) (2023-06-06T23:56:18Z) - Toward Theoretical Guidance for Two Common Questions in Practical
Cross-Validation based Hyperparameter Selection [72.76113104079678]
クロスバリデーションに基づくハイパーパラメータ選択における2つの一般的な質問に対する最初の理論的治療について述べる。
これらの一般化は、少なくとも、常に再トレーニングを行うか、再トレーニングを行わないかを常に実行可能であることを示す。
論文 参考訳(メタデータ) (2023-01-12T16:37:12Z) - Accounting for Variance in Machine Learning Benchmarks [37.922783300635864]
ある機械学習アルゴリズムAは、変化の源を越えて学習パイプラインを最適化する複数の試行を理想的に呼び出す。
これは非常に高価であり、コーナーは結論に達するために切断されます。
ベンチマークプロセス全体をモデル化し,データサンプリングによるばらつき,パラメータ初期化,ハイパーパラメータ選択の影響を明らかにした。
計算コストの51倍の削減で,不完全な推定器アプローチにより多くの変動源を加えることにより,理想推定器の精度が向上することを示す。
論文 参考訳(メタデータ) (2021-03-01T22:39:49Z) - Dual Averaging is Surprisingly Effective for Deep Learning Optimization [20.191456827448736]
1次最適化法はディープニューラルネットワークのトレーニングに最も広く用いられている。
間違った方法を使用すると、パフォーマンスが大幅に低下する可能性がある。
Modernized Dual Averaging (MDA)はCVではSGD+M、NLPではAdamと同等に機能する。
論文 参考訳(メタデータ) (2020-10-20T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。