論文の概要: Principled Architecture-aware Scaling of Hyperparameters
- arxiv url: http://arxiv.org/abs/2402.17440v1
- Date: Tue, 27 Feb 2024 11:52:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:35:30.900735
- Title: Principled Architecture-aware Scaling of Hyperparameters
- Title(参考訳): ハイパーパラメータの原則的アーキテクチャ対応スケーリング
- Authors: Wuyang Chen, Junru Wu, Zhangyang Wang, Boris Hanin
- Abstract要約: 高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
- 参考スコア(独自算出の注目度): 69.98414153320894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training a high-quality deep neural network requires choosing suitable
hyperparameters, which is a non-trivial and expensive process. Current works
try to automatically optimize or design principles of hyperparameters, such
that they can generalize to diverse unseen scenarios. However, most designs or
optimization methods are agnostic to the choice of network structures, and thus
largely ignore the impact of neural architectures on hyperparameters. In this
work, we precisely characterize the dependence of initializations and maximal
learning rates on the network architecture, which includes the network depth,
width, convolutional kernel size, and connectivity patterns. By pursuing every
parameter to be maximally updated with the same mean squared change in
pre-activations, we can generalize our initialization and learning rates across
MLPs (multi-layer perception) and CNNs (convolutional neural network) with
sophisticated graph topologies. We verify our principles with comprehensive
experiments. More importantly, our strategy further sheds light on advancing
current benchmarks for architecture design. A fair comparison of AutoML
algorithms requires accurate network rankings. However, we demonstrate that
network rankings can be easily changed by better training networks in
benchmarks with our architecture-aware learning rates and initialization.
- Abstract(参考訳): 高品質のディープニューラルネットワークをトレーニングするには、適切なハイパーパラメータを選択する必要がある。
現在の作業では、ハイパーパラメータの原則を最適化したり、設計したりすることを試みている。
しかしながら、ほとんどの設計や最適化手法はネットワーク構造の選択に依存しないため、ニューラルアーキテクチャがハイパーパラメータに与える影響を無視する。
本研究では,ネットワークの深さ,幅,畳み込みカーネルサイズ,接続パターンを含むネットワークアーキテクチャに対する初期化と最大学習率の依存性を正確に特徴付ける。
プリアクティベーションの平均2乗変化ですべてのパラメータを最大に更新することで、高度なグラフトポロジによるmlp(multi-layer perception)とcnn(convolutional neural network)間の初期化と学習率を一般化することができる。
包括的な実験で原則を検証する。
さらに重要なことに、当社の戦略はアーキテクチャ設計の現在のベンチマークの進展に光を当てています。
AutoMLアルゴリズムの公正な比較には、正確なネットワークランキングが必要である。
しかし,アーキテクチャを意識した学習率と初期化によるベンチマークでは,ネットワークのランク付けがより優れたトレーニングネットワークによって容易に変更可能であることを示す。
関連論文リスト
- Growing Tiny Networks: Spotting Expressivity Bottlenecks and Fixing Them Optimally [2.645067871482715]
機械学習タスクでは、ある機能空間内で最適な関数を探索する。
この方法で、トレーニング中の機能の進化を、選択したアーキテクチャで表現可能な領域内に配置させます。
表現力のボトルネックによる望ましいアーキテクチャ変更に関する情報は, 後処理の % から抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-05-30T08:23:56Z) - Neuroevolution of Recurrent Architectures on Control Tasks [3.04585143845864]
並列に並列な進化的アルゴリズムを実装し、19のOpenAI Gym状態に基づく強化学習制御タスクで実験を行う。
動的エージェントは, パラメータの桁数を桁違いに減らしながら, 勾配に基づくエージェントの性能に適合するか, 上回っていることがわかった。
論文 参考訳(メタデータ) (2023-04-03T16:29:18Z) - Towards Theoretically Inspired Neural Initialization Optimization [66.04735385415427]
我々は,ニューラルネットワークの初期状態を評価するための理論的知見を備えた,GradCosineという微分可能な量を提案する。
標準制約下でGradCosineを最大化することにより、ネットワークのトレーニングとテストの両方の性能を向上させることができることを示す。
サンプル分析から実際のバッチ設定に一般化されたNIOは、無視可能なコストで、より優れた初期化を自動で探すことができる。
論文 参考訳(メタデータ) (2022-10-12T06:49:16Z) - Edge of chaos as a guiding principle for modern neural network training [19.419382003562976]
ニューラルネットワーク学習アルゴリズムにおける様々なハイパーパラメータの役割を秩序-カオス位相図を用いて検討する。
特に、広く採用されているFashion-MNISTデータセットに基づいて、完全に解析的なフィードフォワードニューラルネットワークについて検討する。
論文 参考訳(メタデータ) (2021-07-20T12:17:55Z) - Differentiable Neural Architecture Learning for Efficient Neural Network
Design [31.23038136038325]
スケールド・シグモイド関数に基づく新しいemphアーキテクチャのパラメータ化を提案する。
そこで本論文では,候補ニューラルネットワークを評価することなく,ニューラルネットワークを最適化するための汎用的エファイブルニューラルネットワーク学習(DNAL)手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T02:03:08Z) - Firefly Neural Architecture Descent: a General Approach for Growing
Neural Networks [50.684661759340145]
firefly neural architecture descentは、ニューラルネットワークを漸進的かつ動的に成長させるための一般的なフレームワークである。
ホタルの降下は、より広く、より深くネットワークを柔軟に成長させ、正確だがリソース効率のよいニューラルアーキテクチャを学習するために応用できることを示す。
特に、サイズは小さいが、最先端の手法で学習したネットワークよりも平均精度が高いネットワークを学習する。
論文 参考訳(メタデータ) (2021-02-17T04:47:18Z) - GradInit: Learning to Initialize Neural Networks for Stable and
Efficient Training [59.160154997555956]
ニューラルネットワークを初期化するための自動化およびアーキテクチャ手法であるgradinitを提案する。
各ネットワーク層の分散は、SGDまたはAdamの単一ステップが最小の損失値をもたらすように調整される。
また、学習率のウォームアップを伴わずに、オリジナルのPost-LN Transformerを機械翻訳用にトレーニングすることもできる。
論文 参考訳(メタデータ) (2021-02-16T11:45:35Z) - Dynamic Hierarchical Mimicking Towards Consistent Optimization
Objectives [73.15276998621582]
一般化能力を高めたCNN訓練を推進するための汎用的特徴学習機構を提案する。
DSNに部分的にインスパイアされた私たちは、ニューラルネットワークの中間層から微妙に設計されたサイドブランチをフォークしました。
カテゴリ認識タスクとインスタンス認識タスクの両方の実験により,提案手法の大幅な改善が示された。
論文 参考訳(メタデータ) (2020-03-24T09:56:13Z) - MSE-Optimal Neural Network Initialization via Layer Fusion [68.72356718879428]
ディープニューラルネットワークは、さまざまな分類と推論タスクに対して最先端のパフォーマンスを達成する。
グラデーションと非進化性の組み合わせは、学習を新しい問題の影響を受けやすいものにする。
確率変数を用いて学習した深層ネットワークの近傍層を融合する手法を提案する。
論文 参考訳(メタデータ) (2020-01-28T18:25:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。