論文の概要: ReZero is All You Need: Fast Convergence at Large Depth
- arxiv url: http://arxiv.org/abs/2003.04887v2
- Date: Thu, 25 Jun 2020 00:09:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 20:18:08.515136
- Title: ReZero is All You Need: Fast Convergence at Large Depth
- Title(参考訳): rezeroは必要なすべてです:大深度での高速収束
- Authors: Thomas Bachlechner, Bodhisattwa Prasad Majumder, Huanru Henry Mao,
Garrison W. Cottrell, Julian McAuley
- Abstract要約: 1つのゼロdパラメータを用いて各残余接続をゲーティングする最も単純なアーキテクチャ変更は、初期力学等尺性を満たすことを示す。
前者よりもはるかにシンプルだが、このゲートは高速収束で数千の完全に接続された層を訓練することができる。
- 参考スコア(独自算出の注目度): 14.729829527661966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep networks often suffer from vanishing or exploding gradients due to
inefficient signal propagation, leading to long training times or convergence
difficulties. Various architecture designs, sophisticated residual-style
networks, and initialization schemes have been shown to improve deep signal
propagation. Recently, Pennington et al. used free probability theory to show
that dynamical isometry plays an integral role in efficient deep learning. We
show that the simplest architecture change of gating each residual connection
using a single zero-initialized parameter satisfies initial dynamical isometry
and outperforms more complex approaches. Although much simpler than its
predecessors, this gate enables training thousands of fully connected layers
with fast convergence and better test performance for ResNets trained on
CIFAR-10. We apply this technique to language modeling and find that we can
easily train 120-layer Transformers. When applied to 12 layer Transformers, it
converges 56% faster on enwiki8.
- Abstract(参考訳): ディープネットワークは、非効率な信号伝搬による勾配の消失や爆発に悩まされ、長い訓練時間や収束困難を引き起こす。
様々なアーキテクチャ設計、洗練された残差スタイルのネットワーク、および初期化スキームは深い信号伝播を改善することが示されている。
近年、ペニントンらは自由確率理論を用いて、動的等尺が効率的な深層学習において重要な役割を果たすことを示した。
1つのゼロ初期化パラメータを用いて各残差接続をゲーティングする最も単純なアーキテクチャ変更は、初期動的等長法を満足し、より複雑なアプローチを上回ることを示す。
このゲートは以前のものよりもはるかにシンプルだが、CIFAR-10でトレーニングされたResNetの高速収束とより良いテスト性能で数千の完全に接続されたレイヤーをトレーニングすることができる。
この手法を言語モデルに適用し,120層トランスフォーマーの学習を容易にする。
12層トランスフォーマーに適用すると、enwiki8で56%高速に収束する。
関連論文リスト
- Pushing the Limits of Sparsity: A Bag of Tricks for Extreme Pruning [4.421875265386832]
ディープニューラルネットワークのプルーニングは、高密度ネットワークの性能の大部分を保ちながら、モデルサイズの削減に有効な手法である。
最近のスパース学習法では、95%や98%といった中等度の疎度レベルまで有望な性能を示している。
極端に間隔があっても精度が崩れることなくネットワークの連続的な学習を可能にする手法の集合を提案する。
論文 参考訳(メタデータ) (2024-11-20T18:54:53Z) - Geometry Aware Meta-Learning Neural Network for Joint Phase and Precoder Optimization in RIS [9.20186865054847]
マルチユーザ複数入力単一出力システムにおける重み付け総和率を最大化する,複雑で幾何を考慮したメタラーニングニューラルネットワークを提案する。
我々は、位相シフトに複雑な値のニューラルネットワークを使用し、Eulerにインスパイアされたプレコーダネットワークのアップデートを行った。
我々のアプローチは、既存のニューラルネットワークベースのアルゴリズムよりも優れており、より重み付けされた総和率、消費電力の低減、およびはるかに高速な収束を提供する。
論文 参考訳(メタデータ) (2024-09-17T15:20:23Z) - Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - Analyzing and Improving the Training Dynamics of Diffusion Models [36.37845647984578]
一般的なADM拡散モデルアーキテクチャにおいて、不均一かつ非効率なトレーニングの原因をいくつか特定し、修正する。
この哲学の体系的な応用は、観測されたドリフトと不均衡を排除し、同じ計算複雑性でネットワークをかなり良くする。
論文 参考訳(メタデータ) (2023-12-05T11:55:47Z) - Learning a Consensus Sub-Network with Polarization Regularization and
One Pass Training [3.2214522506924093]
プルーニングスキームは、静的プルーニングのための反復的なトレーニングと微調整、動的プルーニンググラフの繰り返し計算によって、余分なオーバーヘッドを生み出す。
本稿では,より軽量なサブネットワークを学習するためのパラメータ解析手法を提案する。
CIFAR-10 と CIFAR-100 を用いた結果,分類精度が1% 未満の深層ネットワークにおける接続の50%を除去できることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:37:17Z) - The Underlying Correlated Dynamics in Neural Training [6.385006149689549]
ニューラルネットワークのトレーニングは、計算集約的なタスクである。
本稿では,パラメータのダイナミクスの相関に基づくモデルを提案する。
この表現は、基礎となるトレーニングダイナミクスの理解を深め、より良い加速技術を設計するための道を開くことができる。
論文 参考訳(メタデータ) (2022-12-18T08:34:11Z) - Training Spiking Neural Networks with Local Tandem Learning [96.32026780517097]
スパイキングニューラルネットワーク(SNN)は、前者よりも生物学的に可塑性でエネルギー効率が高いことが示されている。
本稿では,局所タンデム学習(Local Tandem Learning, LTL)と呼ばれる一般化学習規則を提案する。
CIFAR-10データセット上の5つのトレーニングエポック内に高速なネットワーク収束を示すとともに,計算複雑性が低い。
論文 参考訳(メタデータ) (2022-10-10T10:05:00Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。