論文の概要: Towards Theoretically Inspired Neural Initialization Optimization
- arxiv url: http://arxiv.org/abs/2210.05956v1
- Date: Wed, 12 Oct 2022 06:49:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 13:18:58.168941
- Title: Towards Theoretically Inspired Neural Initialization Optimization
- Title(参考訳): 理論的に着想を得たニューラル初期化最適化に向けて
- Authors: Yibo Yang, Hong Wang, Haobo Yuan, Zhouchen Lin
- Abstract要約: 我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
- 参考スコア(独自算出の注目度): 66.04735385415427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated machine learning has been widely explored to reduce human efforts
in designing neural architectures and looking for proper hyperparameters. In
the domain of neural initialization, however, similar automated techniques have
rarely been studied. Most existing initialization methods are handcrafted and
highly dependent on specific architectures. In this paper, we propose a
differentiable quantity, named GradCosine, with theoretical insights to
evaluate the initial state of a neural network. Specifically, GradCosine is the
cosine similarity of sample-wise gradients with respect to the initialized
parameters. By analyzing the sample-wise optimization landscape, we show that
both the training and test performance of a network can be improved by
maximizing GradCosine under gradient norm constraint. Based on this
observation, we further propose the neural initialization optimization (NIO)
algorithm. Generalized from the sample-wise analysis into the real batch
setting, NIO is able to automatically look for a better initialization with
negligible cost compared with the training time. With NIO, we improve the
classification performance of a variety of neural architectures on CIFAR-10,
CIFAR-100, and ImageNet. Moreover, we find that our method can even help to
train large vision Transformer architecture without warmup.
- Abstract(参考訳): 自動機械学習は、ニューラルネットワークの設計と適切なハイパーパラメータを求める人間の努力を減らすために広く研究されてきた。
しかし、神経初期化の領域では、同様の自動化技術が研究されることはほとんどない。
既存の初期化手法の多くは手作りであり、特定のアーキテクチャに依存している。
本稿では,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
特に、GradCosine は初期化パラメータに対するサンプルワイズ勾配のコサイン類似性である。
サンプル毎最適化のランドスケープを分析することにより,勾配ノルム制約下でのgradcosineの最大化により,ネットワークのトレーニングとテスト性能が向上することを示す。
そこで本研究では,ニューラル初期化最適化(NIO)アルゴリズムを提案する。
サンプル分析から実際のバッチ設定に一般化されたNIOは、トレーニング時間と比較して無視できないコストで、より優れた初期化を自動で探すことができる。
NIOにより、CIFAR-10、CIFAR-100、ImageNet上の様々なニューラルネットワークの分類性能が向上する。
さらに,本手法は,ウォームアップを伴わない大規模視覚トランスフォーマーアーキテクチャのトレーニングにも有効であることがわかった。
関連論文リスト
- Advancing Neural Network Performance through Emergence-Promoting Initialization Scheme [0.0]
本稿では,ニューラルネットワークの初期化手法を提案する。
この手法は,Li(2023)が提案する出現対策の概念にインスパイアされ,より高い出現値を達成するために,レイヤワイド・ウェイト・スケーリング・ファクタを調整した。
バッチ正規化の有無にかかわらず,モデル精度とトレーニング速度の両面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-07-26T18:56:47Z) - Growing Tiny Networks: Spotting Expressivity Bottlenecks and Fixing Them Optimally [2.645067871482715]
機械学習タスクでは、ある機能空間内で最適な関数を探索する。
この方法で、トレーニング中の機能の進化を、選択したアーキテクチャで表現可能な領域内に配置させます。
表現力のボトルネックによる望ましいアーキテクチャ変更に関する情報は, 後処理の % から抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-05-30T08:23:56Z) - Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - Learning Large-scale Neural Fields via Context Pruned Meta-Learning [60.93679437452872]
本稿では,大規模ニューラルネットワーク学習のための最適化に基づくメタラーニング手法を提案する。
メタテスト時間における勾配再スケーリングは、非常に高品質なニューラルネットワークの学習を可能にすることを示す。
我々のフレームワークは、モデルに依存しない、直感的で、実装が容易であり、幅広い信号に対する大幅な再構成改善を示す。
論文 参考訳(メタデータ) (2023-02-01T17:32:16Z) - Differentiable Neural Architecture Learning for Efficient Neural Network
Design [31.23038136038325]
スケールド・シグモイド関数に基づく新しいemphアーキテクチャのパラメータ化を提案する。
そこで本論文では,候補ニューラルネットワークを評価することなく,ニューラルネットワークを最適化するための汎用的エファイブルニューラルネットワーク学習(DNAL)手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T02:03:08Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - A Semi-Supervised Assessor of Neural Architectures [157.76189339451565]
我々は、ニューラルネットワークの有意義な表現を見つけるためにオートエンコーダを用いる。
アーキテクチャの性能を予測するために、グラフ畳み込みニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2020-05-14T09:02:33Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。