Fugu-MT 論文翻訳(概要): TDprop: Does Jacobi Preconditioning Help Temporal Difference Learning?

論文の概要: TDprop: Does Jacobi Preconditioning Help Temporal Difference Learning?

arxiv url: http://arxiv.org/abs/2007.02786v1
Date: Mon, 6 Jul 2020 14:40:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-13 01:34:05.263054
Title: TDprop: Does Jacobi Preconditioning Help Temporal Difference Learning?
Title（参考訳）: TDprop:Jacobiプレコンディショニングは時間差学習に役立つか?
Authors: Joshua Romoff, Peter Henderson, David Kanaa, Emmanuel Bengio, Ahmed Touati, Pierre-Luc Bacon, Joelle Pineau
Abstract要約: 時間差学習におけるブートストラップ項を考慮に入れたJacobiプレコンディショニングが適応性向上に有効かどうかを検討する。これは$n$-stepとTD($lambda$)の両方で使用できることを示す。
参考スコア（独自算出の注目度）: 38.367372236580074
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We investigate whether Jacobi preconditioning, accounting for the bootstrap term in temporal difference (TD) learning, can help boost performance of adaptive optimizers. Our method, TDprop, computes a per parameter learning rate based on the diagonal preconditioning of the TD update rule. We show how this can be used in both $n$-step returns and TD($\lambda$). Our theoretical findings demonstrate that including this additional preconditioning information is, surprisingly, comparable to normal semi-gradient TD if the optimal learning rate is found for both via a hyperparameter search. In Deep RL experiments using Expected SARSA, TDprop meets or exceeds the performance of Adam in all tested games under near-optimal learning rates, but a well-tuned SGD can yield similar improvements -- matching our theory. Our findings suggest that Jacobi preconditioning may improve upon typical adaptive optimization methods in Deep RL, but despite incorporating additional information from the TD bootstrap term, may not always be better than SGD.
Abstract（参考訳）: 時間差(TD)学習におけるブートストラップ項を考慮に入れたヤコビ事前条件は,適応最適化器の性能向上に役立つか検討する。提案手法であるtdpropは,td更新規則の対角前条件に基づいてパラメータ当たりの学習率を計算する。これは$n$-step リターンと td($\lambda$) の両方でどのように使えるかを示します。理論的には、この追加の事前条件情報を含めることが、ハイパーパラメータサーチにより最適学習率が両方の場合の通常の半段階的TDに匹敵することを示す。期待されたSARSAを用いたDeep RL実験では、TDpropは、ほぼ最適の学習速度で全てのテストゲームでAdamのパフォーマンスを達成または上回っているが、十分に調整されたSGDは、我々の理論に匹敵する同様の改善をもたらす可能性がある。以上の結果から,Deep RLの適応最適化手法ではヤコビの事前条件が改善する可能性が示唆されたが,TDブートストラップ項の付加情報が組み込まれているにもかかわらず,必ずしもSGDより優れているとは限らない。

関連論文リスト

Learning Hyperparameters via a Data-Emphasized Variational Objective [4.453137996095194]
ベイズ変分法から得られたエビデンスローバウンド(ELBo)目標を通した全トレーニングセット上での正規化ハイパーパラメータの勾配に基づく直接学習を検討する。このようなシナリオでは、ELBoは事前のばらつきにマッチする後方を優先順位付けし、データの過小評価につながる。提案手法は,過去の作業の88時間以上のグリッド検索を3時間以内の精度で行う。
論文参考訳（メタデータ） (2025-02-03T22:19:35Z)
Adaptive Data Exploitation in Deep Reinforcement Learning [50.53705050673944]
深層強化学習(RL)における**データ効率**と**一般化**を強化する強力なフレームワークであるADEPTを紹介する。具体的には、ADEPTはマルチアーム・バンディット(MAB)アルゴリズムを用いて、異なる学習段階にわたるサンプルデータの使用を適応的に管理する。 Procgen、MiniGrid、PyBulletなどのベンチマークでADEPTをテストする。
論文参考訳（メタデータ） (2025-01-22T04:01:17Z)
Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文参考訳（メタデータ） (2024-10-08T11:24:59Z)
Surge Phenomenon in Optimal Learning Rate and Batch Size Scaling [27.058009599819012]
本稿では,Adamスタイルにおける最適学習率とバッチサイズとの関係について検討する。最適学習率が最初に上昇し、バッチサイズが大きくなるにつれて低下することを示す。
論文参考訳（メタデータ） (2024-05-23T13:52:36Z)
Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文参考訳（メタデータ） (2024-05-01T11:10:24Z)
Should I try multiple optimizers when fine-tuning pre-trained Transformers for NLP tasks? Should I tune their hyperparameters? [14.349943044268471]
SGD(Gradient Descent)は、トレーニングのためのニューラルネットワークの選択に使用される。学習率だけをチューニングすることは、ほとんどの場合、すべてのハイパーパラメータをチューニングするのと同じくらい良いことです。最適なアダプティブバウンド(例えばAdam)を選択して、その学習率を推奨します。
論文参考訳（メタデータ） (2024-02-10T13:26:14Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)
ELRA: Exponential learning rate adaption gradient descent optimization method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。本手法の主な考え方は,状況認識による$alphaの適応である。これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文参考訳（メタデータ） (2023-09-12T14:36:13Z)
An Empirical Analysis of Parameter-Efficient Methods for Debiasing Pre-Trained Language Models [55.14405248920852]
各種言語モデルとバイアスタイプを用いたプレフィックスチューニング,プロンプトチューニング,アダプタチューニングによる実験を行い,その性能評価を行った。パラメータ効率のよい手法は、適応調整が常に最も効果的であるジェンダーバイアスを軽減するのに有効であることがわかった。また、早急なチューニングは、BERTよりもGPT-2に適しており、人種的・宗教的偏見に関しては、人種的・宗教的偏見が低いことが判明した。
論文参考訳（メタデータ） (2023-06-06T23:56:18Z)
Toward Theoretical Guidance for Two Common Questions in Practical Cross-Validation based Hyperparameter Selection [72.76113104079678]
クロスバリデーションに基づくハイパーパラメータ選択における2つの一般的な質問に対する最初の理論的治療について述べる。これらの一般化は、少なくとも、常に再トレーニングを行うか、再トレーニングを行わないかを常に実行可能であることを示す。
論文参考訳（メタデータ） (2023-01-12T16:37:12Z)
Adaptive Optimization with Examplewise Gradients [23.504973357538418]
本稿では,機械学習のための勾配に基づく最適化手法の設計に対して,より汎用的なアプローチを提案する。この新しいフレームワークでは、イテレーションは単一の見積もりではなく、パラメータごとの見積もりのバッチへのアクセスを前提としています。これは、典型的な機械学習のセットアップで実際に利用できる情報を反映している。
論文参考訳（メタデータ） (2021-11-30T23:37:01Z)
Accounting for Variance in Machine Learning Benchmarks [37.922783300635864]
ある機械学習アルゴリズムAは、変化の源を越えて学習パイプラインを最適化する複数の試行を理想的に呼び出す。これは非常に高価であり、コーナーは結論に達するために切断されます。ベンチマークプロセス全体をモデル化し,データサンプリングによるばらつき,パラメータ初期化,ハイパーパラメータ選択の影響を明らかにした。計算コストの51倍の削減で,不完全な推定器アプローチにより多くの変動源を加えることにより,理想推定器の精度が向上することを示す。
論文参考訳（メタデータ） (2021-03-01T22:39:49Z)
Dual Averaging is Surprisingly Effective for Deep Learning Optimization [20.191456827448736]
1次最適化法はディープニューラルネットワークのトレーニングに最も広く用いられている。間違った方法を使用すると、パフォーマンスが大幅に低下する可能性がある。 Modernized Dual Averaging (MDA)はCVではSGD+M、NLPではAdamと同等に機能する。
論文参考訳（メタデータ） (2020-10-20T17:55:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。