論文の概要: GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training
- arxiv url: http://arxiv.org/abs/2102.08098v1
- Date: Tue, 16 Feb 2021 11:45:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 15:23:36.816343
- Title: GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training
- Title(参考訳): GradInit: 安定かつ効率的なトレーニングのためのニューラルネットワークの初期化の学習
- Authors: Chen Zhu, Renkun Ni, Zheng Xu, Kezhi Kong, W. Ronny Huang, Tom
Goldstein
- Abstract要約: ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
- 参考スコア(独自算出の注目度): 59.160154997555956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Changes in neural architectures have fostered significant breakthroughs in
language modeling and computer vision. Unfortunately, novel architectures often
require re-thinking the choice of hyperparameters (e.g., learning rate, warmup
schedule, and momentum coefficients) to maintain stability of the optimizer.
This optimizer instability is often the result of poor parameter
initialization, and can be avoided by architecture-specific initialization
schemes. In this paper, we present GradInit, an automated and architecture
agnostic method for initializing neural networks. GradInit is based on a simple
heuristic; the variance of each network layer is adjusted so that a single step
of SGD or Adam results in the smallest possible loss value. This adjustment is
done by introducing a scalar multiplier variable in front of each parameter
block, and then optimizing these variables using a simple numerical scheme.
GradInit accelerates the convergence and test performance of many convolutional
architectures, both with or without skip connections, and even without
normalization layers. It also enables training the original Post-LN Transformer
for machine translation without learning rate warmup under a wide range of
learning rates and momentum coefficients. Code is available at
https://github.com/zhuchen03/gradinit.
- Abstract(参考訳): ニューラルネットワークアーキテクチャの変化は、言語モデリングとコンピュータビジョンに大きなブレークスルーをもたらした。
残念なことに、新しいアーキテクチャはしばしば、オプティマイザの安定性を維持するために、ハイパーパラメータ(学習率、ウォームアップスケジュール、運動量係数など)の選択を再考する必要がある。
このオプティマイザ不安定性はしばしばパラメータの初期化が不十分な結果であり、アーキテクチャ固有の初期化スキームによって回避できる。
本稿では,ニューラルネットワークを初期化する自動的かつアーキテクチャに依存しない手法であるgradinitを提案する。
GradInitは単純なヒューリスティックに基づいており、各ネットワーク層の分散はSGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
この調整は、各パラメータブロックの前にスカラー乗算器変数を導入し、簡単な数値スキームを用いてこれらの変数を最適化する。
GradInitは、多くの畳み込みアーキテクチャの収束とテストのパフォーマンスを、スキップ接続の有無にかかわらず、さらには正規化レイヤなしでも加速する。
また、幅広い学習率と運動量係数で学習率をウォームアップすることなく、機械翻訳のためのオリジナルのPost-LN変換器をトレーニングすることができる。
コードはhttps://github.com/zhuchen03/gradinitで入手できる。
関連論文リスト
- Advancing Neural Network Performance through Emergence-Promoting Initialization Scheme [0.0]
本稿では,ニューラルネットワークの初期化手法を提案する。
この手法は,Li(2023)が提案する出現対策の概念にインスパイアされ,より高い出現値を達成するために,レイヤワイド・ウェイト・スケーリング・ファクタを調整した。
バッチ正規化の有無にかかわらず,モデル精度とトレーニング速度の両面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-07-26T18:56:47Z) - Growing Tiny Networks: Spotting Expressivity Bottlenecks and Fixing Them Optimally [2.645067871482715]
機械学習タスクでは、ある機能空間内で最適な関数を探索する。
この方法で、トレーニング中の機能の進化を、選択したアーキテクチャで表現可能な領域内に配置させます。
表現力のボトルネックによる望ましいアーキテクチャ変更に関する情報は, 後処理の % から抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-05-30T08:23:56Z) - Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - Automatic Gradient Descent: Deep Learning without Hyperparameters [35.350274248478804]
ディープニューラルネットワークのアーキテクチャは、レイヤ数、各レイヤの幅、一般的なネットワークトポロジの観点から明確に定義される。
グラデーション・アイデアは、神経アーキテクチャの非勾配構造を考慮するために、ブレグマンの発散を変換することである。
論文 参考訳(メタデータ) (2023-04-11T12:45:52Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。