Fugu-MT 論文翻訳(概要): Correcting Momentum in Temporal Difference Learning

論文の概要: Correcting Momentum in Temporal Difference Learning

arxiv url: http://arxiv.org/abs/2106.03955v1
Date: Mon, 7 Jun 2021 20:41:15 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-10 10:21:19.086793
Title: Correcting Momentum in Temporal Difference Learning
Title（参考訳）: 時間差学習における修正モーメント
Authors: Emmanuel Bengio, Joelle Pineau, Doina Precup
Abstract要約: 時間差(TD)学習のモーメントは2倍に不安定になる勾配を蓄積すると主張している。この現象が存在することを示し、その上で運動量に対する一階補正項を提案する。この研究の重要な洞察は、深いRL法は、常に監督された設定から直接テクニックをインポートすることで最適ではないということである。
参考スコア（独自算出の注目度）: 95.62766731469671
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A common optimization tool used in deep reinforcement learning is momentum, which consists in accumulating and discounting past gradients, reapplying them at each iteration. We argue that, unlike in supervised learning, momentum in Temporal Difference (TD) learning accumulates gradients that become doubly stale: not only does the gradient of the loss change due to parameter updates, the loss itself changes due to bootstrapping. We first show that this phenomenon exists, and then propose a first-order correction term to momentum. We show that this correction term improves sample efficiency in policy evaluation by correcting target value drift. An important insight of this work is that deep RL methods are not always best served by directly importing techniques from the supervised setting.
Abstract（参考訳）: 深層強化学習でよく使われる最適化ツールはmomentmentで、過去の勾配を蓄積し、ディスカウントし、各イテレーションで再適用する。教師付き学習とは異なり、時間差学習(td)の勢いは、二重に停滞する勾配を蓄積する:パラメータ更新によって損失の勾配が変化するだけでなく、ブートストラップによって損失自体が変化する。まず、この現象の存在を示し、次に運動量に対する一階補正項を提案する。この補正項は,目標値のドリフトを補正することで,政策評価におけるサンプル効率を向上させることを示す。この研究の重要な洞察は、深いRL法は、常に監督された設定から直接テクニックをインポートすることで最適ではないということである。

関連論文リスト

Instance-dependent Early Stopping [57.912273923450726]
本稿では,早期停止機構をトレーニングセット全体からインスタンスレベルに適応させる,インスタンス依存早期停止(IES)手法を提案する。 IES は、損失値の2階差が 0 付近の小さな範囲に留まっている場合、インスタンスをマスタードとみなす。 IESは、モデルのテスト精度と転送学習性能を維持したり、わずかに改善したりしながら、バックプロパゲーションインスタンスを10%から50%削減することができる。
論文参考訳（メタデータ） (2025-02-11T13:34:09Z)
ABPT: Amended Backpropagation through Time with Partially Differentiable Rewards [3.1986315488647588]
部分的に微分可能な報酬は、訓練性能を低下させるバイアス付き勾配伝播をもたらす。本稿では,BPTTのトレーニング効率を保ちつつ,勾配バイアスを緩和する新しい手法であるABPT(Admended Backproagation-through-Time)を提案する。 ABPTは0ステップとNステップの戻り値を組み合わせ、学習したQ値関数から値勾配を利用することによりバイアスを効果的に低減する。
論文参考訳（メタデータ） (2025-01-24T14:18:22Z)
An Effective Dynamic Gradient Calibration Method for Continual Learning [11.555822066922508]
継続的学習(CL)は機械学習の基本的なトピックであり、目標は連続的なデータとタスクでモデルをトレーニングすることだ。メモリ制限のため、すべての履歴データを保存できないため、破滅的な忘れの問題に直面します。モデルの各更新ステップの勾配をキャリブレーションする有効なアルゴリズムを開発した。
論文参考訳（メタデータ） (2024-07-30T16:30:09Z)
Normalization and effective learning rates in reinforcement learning [52.59508428613934]
正規化層は近年,深層強化学習と連続学習文学においてルネッサンスを経験している。正規化は、ネットワークパラメータのノルムにおける成長と効果的な学習速度における崩壊の間の等価性という、微妙だが重要な副作用をもたらすことを示す。そこで本研究では,正規化・プロジェクトと呼ぶ単純な再パラメータ化により,学習率を明示的にする手法を提案する。
論文参考訳（メタデータ） (2024-07-01T20:58:01Z)
ODICE: Revealing the Mystery of Distribution Correction Estimation via Orthogonal-gradient Update [43.91666113724066]
オフライン強化学習(RL)と模倣学習(IL)における重要な作業ラインであるDICE法について検討する。 DICEベースの手法は、オフライン学習の理想的な選択である状態-行動レベルの行動制約を課す。真の漸進的更新を用いて値関数を学習する際には,2つの勾配項が存在する: 前方勾配(現在の状態に着想する)と後方勾配(次の状態に着想する)。
論文参考訳（メタデータ） (2024-02-01T05:30:51Z)
DPSUR: Accelerating Differentially Private Stochastic Gradient Descent Using Selective Update and Release [29.765896801370612]
本稿では,Selective Updates and Releaseに基づく差分プライベートトレーニングフレームワークを提案する。主な課題は、プライバシに関する懸念と、モデル更新のための勾配選択戦略の2つの側面にある。 MNIST,FMNIST, CIFAR-10, IMDBデータセットを用いて行った実験により, DPSURは収束速度において従来よりも大幅に優れていたことがわかった。
論文参考訳（メタデータ） (2023-11-23T15:19:30Z)
Direction Matters: On the Implicit Bias of Stochastic Gradient Descent with Moderate Learning Rate [105.62979485062756]
本稿では,中等度学習におけるSGDの特定の正規化効果を特徴付けることを試みる。 SGDはデータ行列の大きな固有値方向に沿って収束し、GDは小さな固有値方向に沿って収束することを示す。
論文参考訳（メタデータ） (2020-11-04T21:07:52Z)
Implicit Under-Parameterization Inhibits Data-Efficient Deep Reinforcement Learning [97.28695683236981]
さらなる勾配更新により、現在の値ネットワークの表現性が低下する。 AtariとGymのベンチマークでは、オフラインとオンラインのRL設定の両方でこの現象を実証する。
論文参考訳（メタデータ） (2020-10-27T17:55:16Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
The Break-Even Point on Optimization Trajectories of Deep Neural Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文参考訳（メタデータ） (2020-02-21T22:55:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。