論文の概要: Edge of chaos as a guiding principle for modern neural network training
- arxiv url: http://arxiv.org/abs/2107.09437v1
- Date: Tue, 20 Jul 2021 12:17:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 15:06:03.487075
- Title: Edge of chaos as a guiding principle for modern neural network training
- Title(参考訳): 現代ニューラルネットワークトレーニングの指導原理としてのカオスのエッジ
- Authors: Lin Zhang, Ling Feng, Kan Chen and Choy Heng Lai
- Abstract要約: ニューラルネットワーク学習アルゴリズムにおける様々なハイパーパラメータの役割を秩序-カオス位相図を用いて検討する。
特に、広く採用されているFashion-MNISTデータセットに基づいて、完全に解析的なフィードフォワードニューラルネットワークについて検討する。
- 参考スコア(独自算出の注目度): 19.419382003562976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of deep neural networks in real-world problems has prompted many
attempts to explain their training dynamics and generalization performance, but
more guiding principles for the training of neural networks are still needed.
Motivated by the edge of chaos principle behind the optimal performance of
neural networks, we study the role of various hyperparameters in modern neural
network training algorithms in terms of the order-chaos phase diagram. In
particular, we study a fully analytical feedforward neural network trained on
the widely adopted Fashion-MNIST dataset, and study the dynamics associated
with the hyperparameters in back-propagation during the training process. We
find that for the basic algorithm of stochastic gradient descent with momentum,
in the range around the commonly used hyperparameter values, clear scaling
relations are present with respect to the training time during the ordered
phase in the phase diagram, and the model's optimal generalization power at the
edge of chaos is similar across different training parameter combinations. In
the chaotic phase, the same scaling no longer exists. The scaling allows us to
choose the training parameters to achieve faster training without sacrificing
performance. In addition, we find that the commonly used model regularization
method - weight decay - effectively pushes the model towards the ordered phase
to achieve better performance. Leveraging on this fact and the scaling
relations in the other hyperparameters, we derived a principled guideline for
hyperparameter determination, such that the model can achieve optimal
performance by saturating it at the edge of chaos. Demonstrated on this simple
neural network model and training algorithm, our work improves the
understanding of neural network training dynamics, and can potentially be
extended to guiding principles of more complex model architectures and
algorithms.
- Abstract(参考訳): 現実世界の問題におけるディープニューラルネットワークの成功は、トレーニングのダイナミクスと一般化のパフォーマンスを説明する多くの試みを引き起こしているが、ニューラルネットワークのトレーニングのためのより指導的な原則はまだ必要である。
ニューラルネットワークの最適性能の背後にあるカオス原理の端に触発され、秩序-カオス位相図を用いて、現代のニューラルネットワークトレーニングアルゴリズムにおける様々なハイパーパラメータの役割を研究する。
特に,広く採用されているファッション・ムニストデータセットでトレーニングされた完全解析型フィードフォワードニューラルネットワークについて検討し,トレーニング過程におけるバックプロパゲーションにおけるハイパーパラメータに関連するダイナミクスについて検討した。
運動量を持つ確率的勾配降下の基本的なアルゴリズムでは、一般的に用いられるハイパーパラメータ値の周辺では、位相図の順序付けフェーズのトレーニング時間に関して明確なスケーリング関係が存在し、カオスのエッジにおけるモデルの最適一般化力は、異なるトレーニングパラメータの組み合わせで類似している。
カオス的な段階では、同じスケーリングはもはや存在しない。
スケーリングによって、パフォーマンスを犠牲にすることなく、より高速なトレーニングを達成するためのトレーニングパラメータを選択できます。
さらに,一般的に用いられているモデル正規化手法である重み劣化は,モデルが順序相に向かって効果的に推し進め,より優れた性能を実現する。
この事実と他のハイパーパラメータのスケーリング関係を利用して、モデルがカオスの端で飽和させることで最適な性能が得られるように、ハイパーパラメータ決定の原則的ガイドラインを導出した。
この単純なニューラルネットワークモデルとトレーニングアルゴリズムを実証し、我々の研究はニューラルネットワークのトレーニングダイナミクスの理解を改善し、より複雑なモデルアーキテクチャとアルゴリズムの原則へと拡張できる可能性がある。
関連論文リスト
- Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - NeuralFastLAS: Fast Logic-Based Learning from Raw Data [54.938128496934695]
シンボリック・ルール学習者は解釈可能な解を生成するが、入力を記号的に符号化する必要がある。
ニューロシンボリックアプローチは、ニューラルネットワークを使用して生データを潜在シンボリック概念にマッピングすることで、この問題を克服する。
我々は,ニューラルネットワークを記号学習者と共同でトレーニングする,スケーラブルで高速なエンドツーエンドアプローチであるNeuralFastLASを紹介する。
論文 参考訳(メタデータ) (2023-10-08T12:33:42Z) - Epistemic Modeling Uncertainty of Rapid Neural Network Ensembles for
Adaptive Learning [0.0]
新しいタイプのニューラルネットワークは、高速ニューラルネットワークパラダイムを用いて提示される。
提案したエミュレータを組み込んだニューラルネットワークは,予測精度を損なうことなく,ほぼ瞬時に学習できることが判明した。
論文 参考訳(メタデータ) (2023-09-12T22:34:34Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Understanding Multi-phase Optimization Dynamics and Rich Nonlinear
Behaviors of ReLU Networks [8.180184504355571]
線形可分データに基づく勾配流による2層ReLUネットワークの学習過程の理論的評価を行う。
学習過程全体から4つの段階が明らかになり,学習の簡略化と複雑化の傾向が示された。
特定の非線形挙動は、初期、サドルプラトー力学、凝縮エスケープ、複雑化に伴う活性化パターンの変化など、理論的に正確に識別することもできる。
論文 参考訳(メタデータ) (2023-05-21T14:08:34Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - The Underlying Correlated Dynamics in Neural Training [6.385006149689549]
ニューラルネットワークのトレーニングは、計算集約的なタスクである。
本稿では,パラメータのダイナミクスの相関に基づくモデルを提案する。
この表現は、基礎となるトレーニングダイナミクスの理解を深め、より良い加速技術を設計するための道を開くことができる。
論文 参考訳(メタデータ) (2022-12-18T08:34:11Z) - On feedforward control using physics-guided neural networks: Training
cost regularization and optimized initialization [0.0]
モデルベースのフィードフォワードコントローラの性能は、典型的には逆システム力学モデルの精度によって制限される。
本稿では,特定物理パラメータを用いた正規化手法を提案する。
実生活の産業用リニアモーターで検証され、追跡精度と外挿の精度が向上する。
論文 参考訳(メタデータ) (2022-01-28T12:51:25Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z) - Inverse-Dirichlet Weighting Enables Reliable Training of Physics
Informed Neural Networks [2.580765958706854]
我々は、深層ニューラルネットワークのトレーニング中に、スケール不均衡を伴うマルチスケールダイナミクスから生じる障害モードを記述し、治療する。
PINNは、物理方程式モデルとデータとのシームレスな統合を可能にする、一般的な機械学習テンプレートである。
逐次トレーニングを用いた逆モデリングでは,逆ディリクレ重み付けがPINNを破滅的忘れから保護することがわかった。
論文 参考訳(メタデータ) (2021-07-02T10:01:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。