論文の概要: TDprop: Does Jacobi Preconditioning Help Temporal Difference Learning?
- arxiv url: http://arxiv.org/abs/2007.02786v1
- Date: Mon, 6 Jul 2020 14:40:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 01:34:05.263054
- Title: TDprop: Does Jacobi Preconditioning Help Temporal Difference Learning?
- Title(参考訳): TDprop:Jacobiプレコンディショニングは時間差学習に役立つか?
- Authors: Joshua Romoff, Peter Henderson, David Kanaa, Emmanuel Bengio, Ahmed
Touati, Pierre-Luc Bacon, Joelle Pineau
- Abstract要約: 時間差学習におけるブートストラップ項を考慮に入れたJacobiプレコンディショニングが適応性向上に有効かどうかを検討する。
これは$n$-stepとTD($lambda$)の両方で使用できることを示す。
- 参考スコア(独自算出の注目度): 38.367372236580074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate whether Jacobi preconditioning, accounting for the bootstrap
term in temporal difference (TD) learning, can help boost performance of
adaptive optimizers. Our method, TDprop, computes a per parameter learning rate
based on the diagonal preconditioning of the TD update rule. We show how this
can be used in both $n$-step returns and TD($\lambda$). Our theoretical
findings demonstrate that including this additional preconditioning information
is, surprisingly, comparable to normal semi-gradient TD if the optimal learning
rate is found for both via a hyperparameter search. In Deep RL experiments
using Expected SARSA, TDprop meets or exceeds the performance of Adam in all
tested games under near-optimal learning rates, but a well-tuned SGD can yield
similar improvements -- matching our theory. Our findings suggest that Jacobi
preconditioning may improve upon typical adaptive optimization methods in Deep
RL, but despite incorporating additional information from the TD bootstrap
term, may not always be better than SGD.
- Abstract(参考訳): 時間差(TD)学習におけるブートストラップ項を考慮に入れたヤコビ事前条件は,適応最適化器の性能向上に役立つか検討する。
提案手法であるtdpropは,td更新規則の対角前条件に基づいてパラメータ当たりの学習率を計算する。
これは$n$-step リターンと td($\lambda$) の両方でどのように使えるかを示します。
理論的には、この追加の事前条件情報を含めることが、ハイパーパラメータサーチにより最適学習率が両方の場合の通常の半段階的TDに匹敵することを示す。
期待されたSARSAを用いたDeep RL実験では、TDpropは、ほぼ最適の学習速度で全てのテストゲームでAdamのパフォーマンスを達成または上回っているが、十分に調整されたSGDは、我々の理論に匹敵する同様の改善をもたらす可能性がある。
以上の結果から,Deep RLの適応最適化手法ではヤコビの事前条件が改善する可能性が示唆されたが,TDブートストラップ項の付加情報が組み込まれているにもかかわらず,必ずしもSGDより優れているとは限らない。
関連論文リスト
- Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling [27.058009599819012]
本稿では,Adamスタイルにおける最適学習率とバッチサイズとの関係について検討する。
最適学習率が最初に上昇し、バッチサイズが大きくなるにつれて低下することを示す。
論文 参考訳(メタデータ) (2024-05-23T13:52:36Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Should I try multiple optimizers when fine-tuning pre-trained
Transformers for NLP tasks? Should I tune their hyperparameters? [14.349943044268471]
SGD(Gradient Descent)は、トレーニングのためのニューラルネットワークの選択に使用される。
学習率だけをチューニングすることは、ほとんどの場合、すべてのハイパーパラメータをチューニングするのと同じくらい良いことです。
最適なアダプティブバウンド(例えばAdam)を選択して、その学習率を推奨します。
論文 参考訳(メタデータ) (2024-02-10T13:26:14Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - An Empirical Analysis of Parameter-Efficient Methods for Debiasing
Pre-Trained Language Models [55.14405248920852]
各種言語モデルとバイアスタイプを用いたプレフィックスチューニング,プロンプトチューニング,アダプタチューニングによる実験を行い,その性能評価を行った。
パラメータ効率のよい手法は、適応調整が常に最も効果的であるジェンダーバイアスを軽減するのに有効であることがわかった。
また、早急なチューニングは、BERTよりもGPT-2に適しており、人種的・宗教的偏見に関しては、人種的・宗教的偏見が低いことが判明した。
論文 参考訳(メタデータ) (2023-06-06T23:56:18Z) - Toward Theoretical Guidance for Two Common Questions in Practical
Cross-Validation based Hyperparameter Selection [72.76113104079678]
クロスバリデーションに基づくハイパーパラメータ選択における2つの一般的な質問に対する最初の理論的治療について述べる。
これらの一般化は、少なくとも、常に再トレーニングを行うか、再トレーニングを行わないかを常に実行可能であることを示す。
論文 参考訳(メタデータ) (2023-01-12T16:37:12Z) - Adaptive Optimization with Examplewise Gradients [23.504973357538418]
本稿では,機械学習のための勾配に基づく最適化手法の設計に対して,より汎用的なアプローチを提案する。
この新しいフレームワークでは、イテレーションは単一の見積もりではなく、パラメータごとの見積もりのバッチへのアクセスを前提としています。
これは、典型的な機械学習のセットアップで実際に利用できる情報を反映している。
論文 参考訳(メタデータ) (2021-11-30T23:37:01Z) - Accounting for Variance in Machine Learning Benchmarks [37.922783300635864]
ある機械学習アルゴリズムAは、変化の源を越えて学習パイプラインを最適化する複数の試行を理想的に呼び出す。
これは非常に高価であり、コーナーは結論に達するために切断されます。
ベンチマークプロセス全体をモデル化し,データサンプリングによるばらつき,パラメータ初期化,ハイパーパラメータ選択の影響を明らかにした。
計算コストの51倍の削減で,不完全な推定器アプローチにより多くの変動源を加えることにより,理想推定器の精度が向上することを示す。
論文 参考訳(メタデータ) (2021-03-01T22:39:49Z) - Dual Averaging is Surprisingly Effective for Deep Learning Optimization [20.191456827448736]
1次最適化法はディープニューラルネットワークのトレーニングに最も広く用いられている。
間違った方法を使用すると、パフォーマンスが大幅に低下する可能性がある。
Modernized Dual Averaging (MDA)はCVではSGD+M、NLPではAdamと同等に機能する。
論文 参考訳(メタデータ) (2020-10-20T17:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。