Fugu-MT 論文翻訳(概要): Gradient Correction beyond Gradient Descent

論文の概要: Gradient Correction beyond Gradient Descent

arxiv url: http://arxiv.org/abs/2203.08345v1
Date: Wed, 16 Mar 2022 01:42:25 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-17 14:19:03.973834
Title: Gradient Correction beyond Gradient Descent
Title（参考訳）: 勾配降下を超えた勾配補正
Authors: Zefan Li, Bingbing Ni, Teng Li, WenJun Zhang, Wen Gao
Abstract要約: 勾配補正は明らかに、ニューラルネットワークのトレーニングにおいて、最も重要な側面である。勾配補正を行うためのフレームワーク(textbfGCGD)を導入する。実験結果から, 勾配補正フレームワークは, トレーニングエポックスを$sim$20%削減し, ネットワーク性能を向上させることができることがわかった。
参考スコア（独自算出の注目度）: 63.33439072360198
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The great success neural networks have achieved is inseparable from the application of gradient-descent (GD) algorithms. Based on GD, many variant algorithms have emerged to improve the GD optimization process. The gradient for back-propagation is apparently the most crucial aspect for the training of a neural network. The quality of the calculated gradient can be affected by multiple aspects, e.g., noisy data, calculation error, algorithm limitation, and so on. To reveal gradient information beyond gradient descent, we introduce a framework (\textbf{GCGD}) to perform gradient correction. GCGD consists of two plug-in modules: 1) inspired by the idea of gradient prediction, we propose a \textbf{GC-W} module for weight gradient correction; 2) based on Neural ODE, we propose a \textbf{GC-ODE} module for hidden states gradient correction. Experiment results show that our gradient correction framework can effectively improve the gradient quality to reduce training epochs by $\sim$ 20\% and also improve the network performance.
Abstract（参考訳）: ニューラルネットワークが達成した大きな成功は、gd(gradient-descent)アルゴリズムの適用と不可分である。 GDに基づいて、GD最適化プロセスを改善するために多くの変種アルゴリズムが登場した。バックプロパゲーションの勾配は明らかにニューラルネットワークのトレーニングにおいて最も重要な側面である。計算された勾配の品質は、ノイズデータ、計算誤差、アルゴリズム制限など、複数の側面に影響される可能性がある。勾配降下を超える勾配情報を明らかにするために,勾配補正を行うためのフレームワーク(\textbf{GCGD})を導入する。 GCGDは2つのプラグインモジュールで構成される。 1) 勾配予測のアイデアに触発されて, 重み勾配補正のための \textbf{GC-W} モジュールを提案する。 2)Neural ODEに基づいて,隠れ状態勾配補正のための‘textbf{GC-ODE}モジュールを提案する。実験の結果、勾配補正フレームワークは、勾配品質を効果的に改善し、トレーニング期間を$\sim$20\%削減し、ネットワーク性能を向上させることができることがわかった。

関連論文リスト

GradMetaNet: An Equivariant Architecture for Learning on Gradients [18.350495600116712]
勾配学習のための新しいアーキテクチャであるGradMetaNetを紹介する。また,GradMetaNet に対して,従来の手法では自然勾配関数を近似できないことを示す。次に,GradMetaNetの有効性を,勾配に基づくタスクの多種多様なセットで実証する。
論文参考訳（メタデータ） (2025-07-02T12:22:39Z)
Fast and Slow Gradient Approximation for Binary Neural Network Optimization [11.064044986709733]
ハイパーネットワークに基づく手法は、ニューラルネットワークを用いて微分不可能な量子化関数の勾配を学習する。本稿では,ヒストリ・グラディエント・ストレージ(HGS)モジュールを提案する。これは,ヒストリ・グラディエント・シーケンスをモデル化し,最適化に必要な1次モーメントを生成する。また、ハイパーネットワークに層認識埋め込み(LRE)を導入し、層固有の微細勾配の生成を容易にする。
論文参考訳（メタデータ） (2024-12-16T13:48:40Z)
Mitigating Gradient Overlap in Deep Residual Networks with Gradient Normalization for Improved Non-Convex Optimization [0.0]
ディープラーニングにおいて、Residual Networks(ResNets)は、消滅する問題に対処する上で有効であることが証明されている。 ResNetのスキップ接続はオーバーラップし、学習した変換とスキップ接続がグラデーションで結合される。重なりを管理する手法としてZ-score Normalization (ZNorm) を検討した。
論文参考訳（メタデータ） (2024-10-28T21:54:44Z)
Adaptive Gradient Regularization: A Faster and Generalizable Optimization Technique for Deep Neural Networks [5.507301894089302]
本稿では、勾配ベクトルの和正規化を係数として、ディープニューラルネットワークの新しい最適化手法を研究するための最初の試みである。提案手法は適応勾配正規化 (Adaptive gradient regularization, AGR) と呼ばれる。
論文参考訳（メタデータ） (2024-07-24T02:23:18Z)
How to guess a gradient [68.98681202222664]
我々は、勾配が以前考えられていたよりもより構造化されていることを示す。この構造をエクスプロイトすると、勾配のない最適化スキームが大幅に改善される。厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。
論文参考訳（メタデータ） (2023-12-07T21:40:44Z)
Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文参考訳（メタデータ） (2022-10-07T03:52:27Z)
Adapting Stepsizes by Momentumized Gradients Improves Optimization and Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。 textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。 textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文参考訳（メタデータ） (2021-06-22T03:13:23Z)
Cogradient Descent for Dependable Learning [64.02052988844301]
双線形最適化問題に対処するために,CoGDアルゴリズムに基づく信頼度の高い学習法を提案する。 CoGDは、ある変数がスパーシティ制約を持つ場合の双線形問題を解くために導入された。また、特徴と重みの関連を分解するためにも使用できるため、畳み込みニューラルネットワーク(CNN)をより良く訓練するための我々の手法をさらに一般化することができる。
論文参考訳（メタデータ） (2021-06-20T04:28:20Z)
AdaDGS: An adaptive black-box optimization method with a nonlocal directional Gaussian smoothing gradient [3.1546318469750196]
方向性ガウススムースティング(DGS)アプローチは(Zhang et al., 2020)で最近提案され、高次元ブラックボックス最適化のためにDGS勾配と呼ばれる真の非局所勾配を定義するために使用された。 DGSグラデーションを用いた簡易かつ創発的かつ効率的な最適化手法を提案し,超パラメータ微調整の必要性を排除した。
論文参考訳（メタデータ） (2020-11-03T21:20:25Z)
Channel-Directed Gradients for Optimization of Convolutional Neural Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文参考訳（メタデータ） (2020-08-25T00:44:09Z)
Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文参考訳（メタデータ） (2020-06-16T13:41:54Z)
The duality structure gradient descent algorithm: analysis and applications to neural networks [0.0]
本稿では,非漸近的性能解析に寄与する双対構造勾配降下法(DSGD)を提案する。いくつかのニューラルネットワークトレーニングシナリオにおいて,DSGDの動作を実証的に示す。
論文参考訳（メタデータ） (2017-08-01T21:24:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。