論文の概要: Accelerated Training via Incrementally Growing Neural Networks using
Variance Transfer and Learning Rate Adaptation
- arxiv url: http://arxiv.org/abs/2306.12700v1
- Date: Thu, 22 Jun 2023 07:06:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 15:17:42.136974
- Title: Accelerated Training via Incrementally Growing Neural Networks using
Variance Transfer and Learning Rate Adaptation
- Title(参考訳): ばらつき伝達と学習速度適応を用いたインクリメンタル成長ニューラルネットワークによる加速訓練
- Authors: Xin Yuan, Pedro Savarese, Michael Maire
- Abstract要約: 本研究では,ニューラルネットワークを効率的に成長させる手法を開発し,パラメータ化と最適化の戦略をトレーニングダイナミクスを考慮して設計する。
提案手法は,従来のトレーニング予算の大部分を節約しつつ,大規模な固定サイズモデルのトレーニングよりも高い精度で達成可能であることを示す。
- 参考スコア(独自算出の注目度): 34.7523496790944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop an approach to efficiently grow neural networks, within which
parameterization and optimization strategies are designed by considering their
effects on the training dynamics. Unlike existing growing methods, which follow
simple replication heuristics or utilize auxiliary gradient-based local
optimization, we craft a parameterization scheme which dynamically stabilizes
weight, activation, and gradient scaling as the architecture evolves, and
maintains the inference functionality of the network. To address the
optimization difficulty resulting from imbalanced training effort distributed
to subnetworks fading in at different growth phases, we propose a learning rate
adaption mechanism that rebalances the gradient contribution of these separate
subcomponents. Experimental results show that our method achieves comparable or
better accuracy than training large fixed-size models, while saving a
substantial portion of the original computation budget for training. We
demonstrate that these gains translate into real wall-clock training speedups.
- Abstract(参考訳): パラメータ化および最適化戦略が学習ダイナミクスに与える影響を考慮して設計されるニューラルネットワークを効率的に育成する手法を開発した。
単純な複製ヒューリスティックに従ったり、補助的な勾配に基づく局所最適化を利用する既存の成長手法とは異なり、アーキテクチャの進化に伴って動的に重み、アクティベーション、勾配スケーリングを安定化し、ネットワークの推論機能を維持するパラメータ化スキームを構築する。
異なる成長段階にあるサブネットワークに分散したトレーニングの不均衡による最適化の難しさを解決するために,これらのサブコンポーネントの勾配寄与を再均衡させる学習速度適応機構を提案する。
実験結果から,本手法は大規模固定サイズモデルの訓練よりも精度が向上すると同時に,当初の計算予算の大部分を節約できることがわかった。
これらの改善が実際のウォールクロックトレーニングのスピードアップに結びつくことを実証する。
関連論文リスト
- Super Level Sets and Exponential Decay: A Synergistic Approach to Stable Neural Network Training [0.0]
指数減衰と高度な反オーバーフィッティング戦略を統合する動的学習率アルゴリズムを開発した。
適応学習率の影響を受けて、損失関数の超レベル集合が常に連結であることを証明する。
論文 参考訳(メタデータ) (2024-09-25T09:27:17Z) - Hallmarks of Optimization Trajectories in Neural Networks: Directional Exploration and Redundancy [75.15685966213832]
最適化トラジェクトリのリッチな方向構造をポイントワイズパラメータで解析する。
トレーニング中のスカラーバッチノルムパラメータは,ネットワーク全体のトレーニング性能と一致していることを示す。
論文 参考訳(メタデータ) (2024-03-12T07:32:47Z) - Analyzing and Improving the Training Dynamics of Diffusion Models [36.37845647984578]
一般的なADM拡散モデルアーキテクチャにおいて、不均一かつ非効率なトレーニングの原因をいくつか特定し、修正する。
この哲学の体系的な応用は、観測されたドリフトと不均衡を排除し、同じ計算複雑性でネットワークをかなり良くする。
論文 参考訳(メタデータ) (2023-12-05T11:55:47Z) - Reparameterization through Spatial Gradient Scaling [69.27487006953852]
リパラメータ化は、学習中に畳み込み層を等価なマルチブランチ構造に変換することによって、ディープニューラルネットワークの一般化を改善することを目的としている。
本稿では,畳み込みネットワークにおける重み間の学習焦点を再分配する空間勾配スケーリング手法を提案する。
論文 参考訳(メタデータ) (2023-03-05T17:57:33Z) - Hyper-Learning for Gradient-Based Batch Size Adaptation [2.944323057176686]
バッチサイズをスケジューリングして拡大することは、ディープニューラルネットワークをトレーニングする際のノイズを制御する効果的な戦略である。
学習可能なスケジューリングのためのバッチサイズ適応を行うためのアルゴリズムとしてArbiterを導入する。
いくつかの実験でArbiterの有効性を実証した。
論文 参考訳(メタデータ) (2022-05-17T11:01:14Z) - Efficient Differentiable Simulation of Articulated Bodies [89.64118042429287]
本稿では, 音素の効率的な微分可能シミュレーション法を提案する。
これにより、ボディダイナミクスを深層学習フレームワークに統合することが可能になる。
提案手法を用いて, 調音システムによる強化学習を高速化できることを示す。
論文 参考訳(メタデータ) (2021-09-16T04:48:13Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。