論文の概要: AutoInit: Automatic Initialization via Jacobian Tuning
- arxiv url: http://arxiv.org/abs/2206.13568v1
- Date: Mon, 27 Jun 2022 18:14:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-29 13:05:24.489130
- Title: AutoInit: Automatic Initialization via Jacobian Tuning
- Title(参考訳): AutoInit: Jacobian Tuningによる自動初期化
- Authors: Tianyu He, Darshil Doshi and Andrey Gromov
- Abstract要約: 我々は、フィードフォワードDNNに対して、優れた初期化を自動的に見つけられる新しい安価なアルゴリズムを導入する。
完全連結ネットワークに対するReLUを用いたアルゴリズムの動的解法と収束条件の導出について述べる。
提案手法をResMLPおよびVGGアーキテクチャに適用し,本手法で検出したワンショット初期化によって視覚タスクの性能が向上することを示す。
- 参考スコア(独自算出の注目度): 7.9603223299524535
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Good initialization is essential for training Deep Neural Networks (DNNs).
Oftentimes such initialization is found through a trial and error approach,
which has to be applied anew every time an architecture is substantially
modified, or inherited from smaller size networks leading to sub-optimal
initialization. In this work we introduce a new and cheap algorithm, that
allows one to find a good initialization automatically, for general
feed-forward DNNs. The algorithm utilizes the Jacobian between adjacent network
blocks to tune the network hyperparameters to criticality. We solve the
dynamics of the algorithm for fully connected networks with ReLU and derive
conditions for its convergence. We then extend the discussion to more general
architectures with BatchNorm and residual connections. Finally, we apply our
method to ResMLP and VGG architectures, where the automatic one-shot
initialization found by our method shows good performance on vision tasks.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)のトレーニングには、優れた初期化が不可欠だ。
多くの場合、このような初期化は試行錯誤のアプローチによって行われ、アーキテクチャが実質的に変更される度に再適用されるか、あるいはより小さなネットワークから継承される。
本研究では,一般的なフィードフォワードDNNに対して,優れた初期化を自動的に見つけることのできる,新しい安価なアルゴリズムを提案する。
このアルゴリズムは、隣接するネットワークブロック間のヤコビアンを利用して、ネットワークハイパーパラメータを臨界にチューニングする。
完全連結ネットワークに対するReLUを用いたアルゴリズムの動的解法と収束条件の導出について述べる。
次に、BatchNormと残留接続を持つより一般的なアーキテクチャに議論を拡張します。
最後に,提案手法をResMLPおよびVGGアーキテクチャに適用し,本手法で検出したワンショット初期化が視覚タスクに優れた性能を示す。
関連論文リスト
- Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - Principles for Initialization and Architecture Selection in Graph Neural
Networks with ReLU Activations [17.51364577113718]
ReLUを活性化した有限幅グラフニューラルネットワーク(GNN)におけるアーキテクチャ選択の3つの原理を示す。
まず、よく知られた He-initialization の ReLU GNN への一意的な一般化を理論的に導出する。
第2に、有限幅バニラReLU GNNにおいて、固定アグリゲーション演算子を用いる場合、オーバースムーシングが大深度では避けられないことを証明する。
論文 参考訳(メタデータ) (2023-06-20T16:40:41Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - A Robust Initialization of Residual Blocks for Effective ResNet Training
without Batch Normalization [0.9449650062296823]
バッチ正規化は、最先端のニューラルネットワークアーキテクチャに不可欠なコンポーネントである。
重み付け初期化はResNetのような正規化のないネットワークをトレーニングするための鍵であることを示す。
本研究では,CIFAR-10 上で,さらなる正規化やアルゴリズム修正を行なわずに競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2021-12-23T01:13:15Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。