論文の概要: Softmax Gradient Tampering: Decoupling the Backward Pass for Improved
Fitting
- arxiv url: http://arxiv.org/abs/2111.12495v1
- Date: Wed, 24 Nov 2021 13:47:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 14:42:44.688040
- Title: Softmax Gradient Tampering: Decoupling the Backward Pass for Improved
Fitting
- Title(参考訳): Softmax Gradient Tampering:改善されたフィッティングのための後方パスの分離
- Authors: Bishshoy Das, Milton Mondal, Brejesh Lall, Shiv Dutt Joshi, Sumantra
Dutta Roy
- Abstract要約: 我々は、ニューラルネットワークの後方通過の勾配を変更する技術であるSoftmax Gradient Tamperingを紹介する。
我々は,ConvNetのソフトマックス勾配を変更することで,トレーニング精度が向上することを示した。
- 参考スコア(独自算出の注目度): 8.072117741487046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Softmax Gradient Tampering, a technique for modifying the
gradients in the backward pass of neural networks in order to enhance their
accuracy. Our approach transforms the predicted probability values using a
power-based probability transformation and then recomputes the gradients in the
backward pass. This modification results in a smoother gradient profile, which
we demonstrate empirically and theoretically. We do a grid search for the
transform parameters on residual networks. We demonstrate that modifying the
softmax gradients in ConvNets may result in increased training accuracy, thus
increasing the fit across the training data and maximally utilizing the
learning capacity of neural networks. We get better test metrics and lower
generalization gaps when combined with regularization techniques such as label
smoothing. Softmax gradient tampering improves ResNet-50's test accuracy by
$0.52\%$ over the baseline on the ImageNet dataset. Our approach is very
generic and may be used across a wide range of different network architectures
and datasets.
- Abstract(参考訳): ニューラルネットワークの後方通過の勾配を補正して精度を高める手法であるSoftmax Gradient Tamperingを導入する。
提案手法は,パワーベース確率変換を用いて予測確率値を変換し,逆方向の勾配を再計算する。
この修正により、より滑らかな勾配プロファイルが得られ、実証的および理論的に示される。
残差ネットワーク上の変換パラメータのグリッド探索を行う。
本稿では,convnetにおけるソフトマックス勾配の修正により,トレーニング精度が向上し,トレーニングデータ間の適合性が向上し,ニューラルネットワークの学習能力を最大限活用できることを示す。
ラベルの平滑化などの正規化技術と組み合わせることで,テストメトリクスが向上し,一般化ギャップが小さくなる。
ソフトマックス勾配テーパは、ImageNetデータセットのベースライン上でResNet-50のテスト精度を0.52\%改善する。
私たちのアプローチは非常に一般的で、さまざまなネットワークアーキテクチャやデータセットで使用することができます。
関連論文リスト
- Mitigating Gradient Overlap in Deep Residual Networks with Gradient Normalization for Improved Non-Convex Optimization [0.0]
ディープラーニングにおいて、Residual Networks(ResNets)は、消滅する問題に対処する上で有効であることが証明されている。
ResNetのスキップ接続はオーバーラップし、学習した変換とスキップ接続がグラデーションで結合される。
重なりを管理する手法としてZ-score Normalization (ZNorm) を検討した。
論文 参考訳(メタデータ) (2024-10-28T21:54:44Z) - Gradient-Variation Online Learning under Generalized Smoothness [56.38427425920781]
勾配変分オンライン学習は、オンライン関数の勾配の変化とともにスケールする後悔の保証を達成することを目的としている。
ニューラルネットワーク最適化における最近の取り組みは、一般化された滑らかさ条件を示唆し、滑らかさは勾配ノルムと相関する。
ゲームにおける高速収束と拡張逆最適化への応用について述べる。
論文 参考訳(メタデータ) (2024-08-17T02:22:08Z) - Forward Gradient-Based Frank-Wolfe Optimization for Memory Efficient Deep Neural Network Training [0.0]
本稿では,よく知られたFrank-Wolfeアルゴリズムの性能解析に焦点をあてる。
提案アルゴリズムは, 最適解に収束し, サブ線形収束率を示す。
対照的に、標準的なフランク=ウルフアルゴリズムは、プロジェクテッド・フォワード・グラディエントへのアクセスを提供すると、最適解に収束しない。
論文 参考訳(メタデータ) (2024-03-19T07:25:36Z) - How to guess a gradient [68.98681202222664]
我々は、勾配が以前考えられていたよりもより構造化されていることを示す。
この構造をエクスプロイトすると、勾配のない最適化スキームが大幅に改善される。
厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。
論文 参考訳(メタデータ) (2023-12-07T21:40:44Z) - Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data [63.34506218832164]
本研究では,ReLUを活性化した2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。
勾配流には、均一なニューラルネットワークに対する暗黙のバイアスに関する最近の研究を活用し、リーク的に勾配流が2つ以上のランクを持つニューラルネットワークを生成することを示す。
勾配降下は, ランダムな分散が十分小さい場合, 勾配降下の1ステップでネットワークのランクが劇的に低下し, トレーニング中もランクが小さくなることを示す。
論文 参考訳(メタデータ) (2022-10-13T15:09:54Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Exploiting Adam-like Optimization Algorithms to Improve the Performance
of Convolutional Neural Networks [82.61182037130405]
勾配降下(SGD)は深いネットワークを訓練するための主要なアプローチです。
本研究では,現在と過去の勾配の違いに基づいて,Adamに基づく変分を比較する。
resnet50を勾配降下訓練したネットワークのアンサンブルと融合実験を行った。
論文 参考訳(メタデータ) (2021-03-26T18:55:08Z) - Channel-Directed Gradients for Optimization of Convolutional Neural
Networks [50.34913837546743]
本稿では,畳み込みニューラルネットワークの最適化手法を提案する。
出力チャネル方向に沿って勾配を定義することで性能が向上し,他の方向が有害となることを示す。
論文 参考訳(メタデータ) (2020-08-25T00:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。