論文の概要: Edge of chaos as a guiding principle for modern neural network training
- arxiv url: http://arxiv.org/abs/2107.09437v1
- Date: Tue, 20 Jul 2021 12:17:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 15:06:03.487075
- Title: Edge of chaos as a guiding principle for modern neural network training
- Title(参考訳): 現代ニューラルネットワークトレーニングの指導原理としてのカオスのエッジ
- Authors: Lin Zhang, Ling Feng, Kan Chen and Choy Heng Lai
- Abstract要約: ニューラルネットワーク学習アルゴリズムにおける様々なハイパーパラメータの役割を秩序-カオス位相図を用いて検討する。
特に、広く採用されているFashion-MNISTデータセットに基づいて、完全に解析的なフィードフォワードニューラルネットワークについて検討する。
- 参考スコア(独自算出の注目度): 19.419382003562976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of deep neural networks in real-world problems has prompted many
attempts to explain their training dynamics and generalization performance, but
more guiding principles for the training of neural networks are still needed.
Motivated by the edge of chaos principle behind the optimal performance of
neural networks, we study the role of various hyperparameters in modern neural
network training algorithms in terms of the order-chaos phase diagram. In
particular, we study a fully analytical feedforward neural network trained on
the widely adopted Fashion-MNIST dataset, and study the dynamics associated
with the hyperparameters in back-propagation during the training process. We
find that for the basic algorithm of stochastic gradient descent with momentum,
in the range around the commonly used hyperparameter values, clear scaling
relations are present with respect to the training time during the ordered
phase in the phase diagram, and the model's optimal generalization power at the
edge of chaos is similar across different training parameter combinations. In
the chaotic phase, the same scaling no longer exists. The scaling allows us to
choose the training parameters to achieve faster training without sacrificing
performance. In addition, we find that the commonly used model regularization
method - weight decay - effectively pushes the model towards the ordered phase
to achieve better performance. Leveraging on this fact and the scaling
relations in the other hyperparameters, we derived a principled guideline for
hyperparameter determination, such that the model can achieve optimal
performance by saturating it at the edge of chaos. Demonstrated on this simple
neural network model and training algorithm, our work improves the
understanding of neural network training dynamics, and can potentially be
extended to guiding principles of more complex model architectures and
algorithms.
- Abstract(参考訳): 現実世界の問題におけるディープニューラルネットワークの成功は、トレーニングのダイナミクスと一般化のパフォーマンスを説明する多くの試みを引き起こしているが、ニューラルネットワークのトレーニングのためのより指導的な原則はまだ必要である。
ニューラルネットワークの最適性能の背後にあるカオス原理の端に触発され、秩序-カオス位相図を用いて、現代のニューラルネットワークトレーニングアルゴリズムにおける様々なハイパーパラメータの役割を研究する。
特に,広く採用されているファッション・ムニストデータセットでトレーニングされた完全解析型フィードフォワードニューラルネットワークについて検討し,トレーニング過程におけるバックプロパゲーションにおけるハイパーパラメータに関連するダイナミクスについて検討した。
運動量を持つ確率的勾配降下の基本的なアルゴリズムでは、一般的に用いられるハイパーパラメータ値の周辺では、位相図の順序付けフェーズのトレーニング時間に関して明確なスケーリング関係が存在し、カオスのエッジにおけるモデルの最適一般化力は、異なるトレーニングパラメータの組み合わせで類似している。
カオス的な段階では、同じスケーリングはもはや存在しない。
スケーリングによって、パフォーマンスを犠牲にすることなく、より高速なトレーニングを達成するためのトレーニングパラメータを選択できます。
さらに,一般的に用いられているモデル正規化手法である重み劣化は,モデルが順序相に向かって効果的に推し進め,より優れた性能を実現する。
この事実と他のハイパーパラメータのスケーリング関係を利用して、モデルがカオスの端で飽和させることで最適な性能が得られるように、ハイパーパラメータ決定の原則的ガイドラインを導出した。
この単純なニューラルネットワークモデルとトレーニングアルゴリズムを実証し、我々の研究はニューラルネットワークのトレーニングダイナミクスの理解を改善し、より複雑なモデルアーキテクチャとアルゴリズムの原則へと拡張できる可能性がある。
関連論文リスト
- Peer-to-Peer Learning Dynamics of Wide Neural Networks [10.179711440042123]
我々は,一般的なDGDアルゴリズムを用いて学習した広範ニューラルネットワークの学習力学を,明示的で非漸近的に特徴づける。
我々は,誤りや誤りを正確に予測し,分析結果を検証した。
論文 参考訳(メタデータ) (2024-09-23T17:57:58Z) - Adaptive Class Emergence Training: Enhancing Neural Network Stability and Generalization through Progressive Target Evolution [0.0]
分類問題におけるニューラルネットワークの新しいトレーニング手法を提案する。
我々は、トレーニングプロセスを通して、ヌルベクトルから1ホットの符号化ベクターへのターゲット出力を進化させる。
この段階的な遷移により、ネットワークは分類タスクの複雑さの増大によりスムーズに適応できる。
論文 参考訳(メタデータ) (2024-09-04T03:25:48Z) - Dynamical stability and chaos in artificial neural network trajectories along training [3.379574469735166]
浅いニューラルネットワークのネットワーク軌跡をこのレンズを通して解析することにより,このプロセスの動的特性について検討する。
我々は,学習率の仕組みによって,規則的かつカオス的な行動のヒントを見いだす。
この研究は、力学系理論、ネットワーク理論、機械学習のアイデアの交叉受精にも貢献している。
論文 参考訳(メタデータ) (2024-04-08T17:33:11Z) - Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - NeuralFastLAS: Fast Logic-Based Learning from Raw Data [54.938128496934695]
シンボリック・ルール学習者は解釈可能な解を生成するが、入力を記号的に符号化する必要がある。
ニューロシンボリックアプローチは、ニューラルネットワークを使用して生データを潜在シンボリック概念にマッピングすることで、この問題を克服する。
我々は,ニューラルネットワークを記号学習者と共同でトレーニングする,スケーラブルで高速なエンドツーエンドアプローチであるNeuralFastLASを紹介する。
論文 参考訳(メタデータ) (2023-10-08T12:33:42Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Implicit Stochastic Gradient Descent for Training Physics-informed
Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。
PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。
本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文 参考訳(メタデータ) (2023-03-03T08:17:47Z) - Identifying Equivalent Training Dynamics [3.793387630509845]
共役および非共役のトレーニングダイナミクスを識別するフレームワークを開発する。
クープマン作用素理論の進歩を利用して、クープマン固有値を比較することで、オンラインミラー降下とオンライン勾配降下の既知同値を正しく同定できることを実証する。
a)浅層ニューラルネットワークと広層ニューラルネットワークの間の非共役トレーニングダイナミクスの同定、(b)畳み込みニューラルネットワークにおけるトレーニングダイナミクスの初期段階の特徴付け、(c)グルーキングを行わないトランスフォーマーにおける非共役トレーニングダイナミクスの発見。
論文 参考訳(メタデータ) (2023-02-17T22:15:20Z) - The Underlying Correlated Dynamics in Neural Training [6.385006149689549]
ニューラルネットワークのトレーニングは、計算集約的なタスクである。
本稿では,パラメータのダイナミクスの相関に基づくモデルを提案する。
この表現は、基礎となるトレーニングダイナミクスの理解を深め、より良い加速技術を設計するための道を開くことができる。
論文 参考訳(メタデータ) (2022-12-18T08:34:11Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Dynamic Neural Diversification: Path to Computationally Sustainable
Neural Networks [68.8204255655161]
訓練可能なパラメータが制限された小さなニューラルネットワークは、多くの単純なタスクに対してリソース効率の高い候補となる。
学習過程において隠れた層内のニューロンの多様性を探索する。
ニューロンの多様性がモデルの予測にどのように影響するかを分析する。
論文 参考訳(メタデータ) (2021-09-20T15:12:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。