論文の概要: An Experimental Comparison Between Temporal Difference and Residual
Gradient with Neural Network Approximation
- arxiv url: http://arxiv.org/abs/2205.12770v1
- Date: Wed, 25 May 2022 13:37:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 13:40:11.011731
- Title: An Experimental Comparison Between Temporal Difference and Residual
Gradient with Neural Network Approximation
- Title(参考訳): ニューラルネットワーク近似による時間差と残留勾配の実験的比較
- Authors: Shuyu Yin, Tao Luo, Peilin Liu, Zhi-Qin John Xu
- Abstract要約: ニューラルネットワーク近似を用いた深部Q-ラーニングでは、ベルマン残差最小化問題を解くために勾配降下がほとんど使われない。
本研究では,時間差(TD)が勾配降下(RG)より優れていることを示すため,広範な実験を行う。
また、TDの欠落項が、RGが著しく機能する鍵となる理由であることも実証的に検証する。
- 参考スコア(独自算出の注目度): 8.166265682999482
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Gradient descent or its variants are popular in training neural networks.
However, in deep Q-learning with neural network approximation, a type of
reinforcement learning, gradient descent (also known as Residual Gradient (RG))
is barely used to solve Bellman residual minimization problem. On the contrary,
Temporal Difference (TD), an incomplete gradient descent method prevails. In
this work, we perform extensive experiments to show that TD outperforms RG,
that is, when the training leads to a small Bellman residual error, the
solution found by TD has a better policy and is more robust against the
perturbation of neural network parameters. We further use experiments to reveal
a key difference between reinforcement learning and supervised learning, that
is, a small Bellman residual error can correspond to a bad policy in
reinforcement learning while the test loss function in supervised learning is a
standard index to indicate the performance. We also empirically examine that
the missing term in TD is a key reason why RG performs badly. Our work shows
that the performance of a deep Q-learning solution is closely related to the
training dynamics and how an incomplete gradient descent method can find a good
policy is interesting for future study.
- Abstract(参考訳): 勾配降下またはその変種はニューラルネットワークのトレーニングで人気がある。
しかし、ニューラルネットワーク近似を用いた深部Q-ラーニングでは、強化学習の一種である勾配降下(Residual Gradient (RG))は、ベルマン残差最小化問題を解決するためにほとんど使われない。
対照的に、時間差(td)は不完全勾配降下法が優勢である。
本研究では,tdがベルマン残差の小さいrg,すなわち訓練がベルマン残差エラーを引き起こすとき,tdの解はより優れた方針を持ち,ニューラルネットワークパラメータの摂動に対してより強固であることを示すために,広範な実験を行った。
さらに,強化学習と教師付き学習の鍵となる違いを明らかにする実験を行い,教師付き学習におけるテスト損失関数は性能を示す標準指標である一方,小さなベルマン残差誤差は強化学習における悪い方針に対応できることを示した。
また、TDの欠落項がRGの低下の原因であることも実証的に検証する。
本研究は,深層q-learningソリューションの性能がトレーニングダイナミクスと密接に関連していること,不完全勾配降下法が適切な方針を見出す方法が今後の研究に有用であることを示す。
関連論文リスト
- Implicit Bias of Gradient Descent for Two-layer ReLU and Leaky ReLU
Networks on Nearly-orthogonal Data [66.1211659120882]
好ましい性質を持つ解に対する暗黙の偏見は、勾配に基づく最適化によって訓練されたニューラルネットワークがうまく一般化できる重要な理由であると考えられている。
勾配流の暗黙バイアスは、均質ニューラルネットワーク(ReLUやリークReLUネットワークを含む)に対して広く研究されているが、勾配降下の暗黙バイアスは現在、滑らかなニューラルネットワークに対してのみ理解されている。
論文 参考訳(メタデータ) (2023-10-29T08:47:48Z) - A Framework for Provably Stable and Consistent Training of Deep
Feedforward Networks [4.21061712600981]
本稿では、教師付き(分類と回帰)および教師なし(強化学習)シナリオにおいて、ディープニューラルネットワークを訓練するための新しいアルゴリズムを提案する。
このアルゴリズムは、標準降下勾配と勾配クリッピング法を組み合わせたものである。
理論的および実験を通して、我々のアルゴリズム更新はばらつきが低く、トレーニング損失はスムーズな方法で減少することを示す。
論文 参考訳(メタデータ) (2023-05-20T07:18:06Z) - Training a Two Layer ReLU Network Analytically [4.94950858749529]
我々は、ReLUのような活性化と正方形損失を伴う2層ニューラルネットワークのトレーニングアルゴリズムについて検討する。
この方法は勾配降下法よりも高速で、チューニングパラメータがほとんどない。
論文 参考訳(メタデータ) (2023-04-06T09:57:52Z) - Alternate Loss Functions for Classification and Robust Regression Can Improve the Accuracy of Artificial Neural Networks [6.452225158891343]
本稿では,ニューラルネットワークのトレーニング速度と最終的な精度が,ニューラルネットワークのトレーニングに使用する損失関数に大きく依存することを示す。
様々なベンチマークタスクの性能を著しく向上させる2つの新しい分類損失関数を提案する。
論文 参考訳(メタデータ) (2023-03-17T12:52:06Z) - Benign Overfitting for Two-layer ReLU Convolutional Neural Networks [60.19739010031304]
ラベルフリップ雑音を持つ2層ReLU畳み込みニューラルネットワークを学習するためのアルゴリズム依存型リスクバウンダリを確立する。
緩やかな条件下では、勾配降下によってトレーニングされたニューラルネットワークは、ほぼゼロに近いトレーニング損失とベイズ最適試験リスクを達成できることを示す。
論文 参考訳(メタデータ) (2023-03-07T18:59:38Z) - Globally Optimal Training of Neural Networks with Threshold Activation
Functions [63.03759813952481]
しきい値アクティベートを伴うディープニューラルネットワークの重み劣化正規化学習問題について検討した。
ネットワークの特定の層でデータセットを破砕できる場合に、簡易な凸最適化の定式化を導出する。
論文 参考訳(メタデータ) (2023-03-06T18:59:13Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Theoretical Characterization of How Neural Network Pruning Affects its
Generalization [131.1347309639727]
この研究は、異なるプルーニング率がモデルの勾配降下ダイナミクスと一般化にどのように影響するかを研究する最初の試みである。
プルーニング率が一定の閾値以下である限り、勾配降下はトレーニング損失をゼロに導くことができる。
より驚くべきことに、プルーニング分数が大きくなるにつれて、一般化境界はより良くなる。
論文 参考訳(メタデータ) (2023-01-01T03:10:45Z) - Learning Lipschitz Functions by GD-trained Shallow Overparameterized
ReLU Neural Networks [12.018422134251384]
このクラスでは、トレーニングエラーのほとんどゼロにトレーニングされたニューラルネットワークが矛盾していることが示される。
ReLUアクティベーション関数によって誘導されるカーネルのヒルベルト空間上で、何らかの早期停止規則が最適率(過剰リスク)を与えることが保証されたとき、同じ規則を極大最適率を達成するために使うことができることを示す。
論文 参考訳(メタデータ) (2022-12-28T14:56:27Z) - Early Stage Convergence and Global Convergence of Training Mildly
Parameterized Neural Networks [3.148524502470734]
トレーニングの初期段階において,損失はかなりの量減少し,この減少は急速に進行することを示す。
我々は、ニューロンの活性化パターンを顕微鏡で解析し、勾配のより強力な下界を導出するのに役立つ。
論文 参考訳(メタデータ) (2022-06-05T09:56:50Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。