論文の概要: The Principles of Deep Learning Theory
- arxiv url: http://arxiv.org/abs/2106.10165v1
- Date: Fri, 18 Jun 2021 15:00:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-21 14:26:01.701460
- Title: The Principles of Deep Learning Theory
- Title(参考訳): 深層学習理論の原理
- Authors: Daniel A. Roberts, Sho Yaida, Boris Hanin
- Abstract要約: この本は、実践的妥当性の深いニューラルネットワークを理解するための効果的な理論アプローチを開発する。
これらのネットワークがトレーニングから非自明な表現を効果的に学習する方法について説明する。
トレーニングネットワークのアンサンブルの有効モデル複雑性を,奥行き比が支配していることを示す。
- 参考スコア(独自算出の注目度): 19.33681537640272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This book develops an effective theory approach to understanding deep neural
networks of practical relevance. Beginning from a first-principles
component-level picture of networks, we explain how to determine an accurate
description of the output of trained networks by solving layer-to-layer
iteration equations and nonlinear learning dynamics. A main result is that the
predictions of networks are described by nearly-Gaussian distributions, with
the depth-to-width aspect ratio of the network controlling the deviations from
the infinite-width Gaussian description. We explain how these effectively-deep
networks learn nontrivial representations from training and more broadly
analyze the mechanism of representation learning for nonlinear models. From a
nearly-kernel-methods perspective, we find that the dependence of such models'
predictions on the underlying learning algorithm can be expressed in a simple
and universal way. To obtain these results, we develop the notion of
representation group flow (RG flow) to characterize the propagation of signals
through the network. By tuning networks to criticality, we give a practical
solution to the exploding and vanishing gradient problem. We further explain
how RG flow leads to near-universal behavior and lets us categorize networks
built from different activation functions into universality classes.
Altogether, we show that the depth-to-width ratio governs the effective model
complexity of the ensemble of trained networks. By using information-theoretic
techniques, we estimate the optimal aspect ratio at which we expect the network
to be practically most useful and show how residual connections can be used to
push this scale to arbitrary depths. With these tools, we can learn in detail
about the inductive bias of architectures, hyperparameters, and optimizers.
- Abstract(参考訳): この本は、実践的妥当性の深いニューラルネットワークを理解するための効果的な理論アプローチを開発する。
まず,ネットワークの第一原理のコンポーネントレベル図から,階層間反復方程式と非線形学習ダイナミクスを解いて,トレーニングされたネットワークの出力の正確な記述を決定する方法について述べる。
主な結果は、ネットワークの予測がほぼガウシアン分布によって記述され、ネットワークの深さから幅へのアスペクト比が無限幅ガウシアン記述からのずれを制御する。
これらのネットワークがトレーニングから非自明な表現を学習し、非線形モデルにおける表現学習のメカニズムをより広く分析する方法について説明する。
ほぼカーネル・メソッドの観点から、基礎となる学習アルゴリズムに対するそのようなモデルの予測の依存は、単純で普遍的な方法で表現できることが分かる。
これらの結果を得るために,ネットワークを介した信号伝達を特徴付ける表現群フロー (rg flow) の概念を開発した。
ネットワークを臨界にチューニングすることにより,爆発・消滅勾配問題に対する実用的な解を与える。
さらに,rgフローが普遍的動作にどのようにつながるかを説明し,異なるアクティベーション関数から構築されたネットワークを普遍性クラスに分類する。
総じて、深さと幅の比は、訓練されたネットワークのアンサンブルの効果的なモデルの複雑さを制御していることを示す。
情報理論手法を用いることで,ネットワークが事実上最も有用であると期待する最適アスペクト比を推定し,このスケールを任意の深さまで押し上げるための残差接続をいかに活用できるかを示す。
これらのツールを使うことで、アーキテクチャ、ハイパーパラメータ、オプティマイザの帰納的バイアスについて詳細に学ぶことができます。
関連論文リスト
- Statistical Physics of Deep Neural Networks: Initialization toward
Optimal Channels [6.144858413112823]
ディープラーニングでは、ニューラルネットワークは入力データとその表現の間のノイズの多いチャネルとして機能する。
ニューラルネットワークが最適なチャネルに内在する可能性について,よく見過ごされる可能性について検討する。
論文 参考訳(メタデータ) (2022-12-04T05:13:01Z) - Globally Gated Deep Linear Networks [3.04585143845864]
我々はGGDLN(Globally Gated Deep Linear Networks)を導入する。
有限幅熱力学極限におけるこれらのネットワークの一般化特性の正確な方程式を導出する。
我々の研究は、有限幅の非線形ネットワークの族における学習に関する最初の正確な理論解である。
論文 参考訳(メタデータ) (2022-10-31T16:21:56Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - Information Flow in Deep Neural Networks [0.6922389632860545]
ディープニューラルネットワークの動作や構造に関する包括的な理論的理解は存在しない。
深層ネットワークはしばしば、不明確な解釈と信頼性を持つブラックボックスと見なされる。
この研究は、情報理論の原理と技法をディープラーニングモデルに適用し、理論的理解を高め、より良いアルゴリズムを設計することを目的としている。
論文 参考訳(メタデータ) (2022-02-10T23:32:26Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - Learning Structures for Deep Neural Networks [99.8331363309895]
我々は,情報理論に根ざし,計算神経科学に発達した効率的な符号化原理を採用することを提案する。
スパース符号化は出力信号のエントロピーを効果的に最大化できることを示す。
公開画像分類データセットを用いた実験により,提案アルゴリズムでスクラッチから学習した構造を用いて,最も優れた専門家設計構造に匹敵する分類精度が得られることを示した。
論文 参考訳(メタデータ) (2021-05-27T12:27:24Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Deep Networks from the Principle of Rate Reduction [32.87280757001462]
この研究は、レート還元と(シフト)不変分類の原理から、現代のディープ(畳み込み)ネットワークを解釈しようとする。
学習した特徴量の減少率を最適化するための基本的反復的漸進勾配法が,多層深層ネットワーク,すなわち1層1回を自然に導くことを示す。
この「ホワイトボックス」ネットワークの全てのコンポーネントは正確な最適化、統計学、幾何学的解釈を持っている。
論文 参考訳(メタデータ) (2020-10-27T06:01:43Z) - Learning Connectivity of Neural Networks from a Topological Perspective [80.35103711638548]
本稿では,ネットワークを解析のための完全なグラフに表現するためのトポロジ的視点を提案する。
接続の規模を反映したエッジに学習可能なパラメータを割り当てることにより、学習プロセスを異なる方法で行うことができる。
この学習プロセスは既存のネットワークと互換性があり、より大きな検索空間と異なるタスクへの適応性を持っている。
論文 参考訳(メタデータ) (2020-08-19T04:53:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。