論文の概要: A Survey on Statistical Theory of Deep Learning: Approximation, Training
Dynamics, and Generative Models
- arxiv url: http://arxiv.org/abs/2401.07187v1
- Date: Sun, 14 Jan 2024 02:30:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 19:19:24.202084
- Title: A Survey on Statistical Theory of Deep Learning: Approximation, Training
Dynamics, and Generative Models
- Title(参考訳): 深層学習の統計理論に関する調査研究:近似, トレーニングダイナミクス, 生成モデル
- Authors: Namjoon Suh and Guang Cheng
- Abstract要約: 本稿では3つの観点から,ニューラルネットワークの統計理論に関する文献をレビューする。
ニューラルネットワークの過剰なリスクに関する結果は、回帰または分類の非パラメトリックフレームワークでレビューされる。
本稿では、GAN(Generative Adversarial Networks)、拡散モデル、Large Language Models(LLMs)におけるICL(In-context Learning)などの生成モデルにおける最新の理論的進歩について概説する。
- 参考スコア(独自算出の注目度): 15.692437265063342
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this article, we review the literature on statistical theories of neural
networks from three perspectives. In the first part, results on excess risks
for neural networks are reviewed in the nonparametric framework of regression
or classification. These results rely on explicit constructions of neural
networks, leading to fast convergence rates of excess risks, in that tools from
the approximation theory are adopted. Through these constructions, the width
and depth of the networks can be expressed in terms of sample size, data
dimension, and function smoothness. Nonetheless, their underlying analysis only
applies to the global minimizer in the highly non-convex landscape of deep
neural networks. This motivates us to review the training dynamics of neural
networks in the second part. Specifically, we review papers that attempt to
answer ``how the neural network trained via gradient-based methods finds the
solution that can generalize well on unseen data.'' In particular, two
well-known paradigms are reviewed: the Neural Tangent Kernel (NTK) paradigm,
and Mean-Field (MF) paradigm. In the last part, we review the most recent
theoretical advancements in generative models including Generative Adversarial
Networks (GANs), diffusion models, and in-context learning (ICL) in the Large
Language Models (LLMs). The former two models are known to be the main pillars
of the modern generative AI era, while ICL is a strong capability of LLMs in
learning from a few examples in the context. Finally, we conclude the paper by
suggesting several promising directions for deep learning theory.
- Abstract(参考訳): 本稿では,3つの観点から,ニューラルネットワークの統計理論に関する文献をレビューする。
第一部では、回帰または分類の非パラメトリックフレームワークにおいて、ニューラルネットワークの過剰リスクに関する結果についてレビューする。
これらの結果はニューラルネットワークの明示的な構築に依存しており、近似理論からのツールが採用されているため、過剰リスクの高速収束率につながる。
これらの構成を通して、ネットワークの幅と深さは、サンプルサイズ、データ次元、関数の滑らかさという観点から表現できる。
それでも、その基盤となる分析は、ディープニューラルネットワークの非凸な状況におけるグローバルな最小化にのみ適用される。
これは、第2部のニューラルネットワークのトレーニングダイナミクスをレビューする動機となります。
具体的には、勾配に基づく手法でトレーニングされたニューラルネットワークが、目に見えないデータに対してうまく一般化できるソリューションを見つける方法」に答えようとする論文をレビューする。
特に、ニューラルネットワークカーネル(NTK)パラダイムと平均フィールド(MF)パラダイムの2つのよく知られたパラダイムがレビューされている。
最後に,GAN(Generative Adversarial Networks)や拡散モデル,Large Language Models(LLMs)におけるICL(In-context Learning)などの生成モデルに関する最近の理論的進歩について概説する。
以前の2つのモデルは、現代の生成AI時代の主要な柱として知られており、ICLは、文脈におけるいくつかの例から学ぶLLMの強力な能力である。
最後に,深層学習理論に期待できるいくつかの方向性を提案する。
関連論文リスト
- Fundamental limits of overparametrized shallow neural networks for
supervised learning [11.136777922498355]
本研究では,教師ネットワークが生成した入力-出力ペアから学習した2層ニューラルネットワークについて検討する。
この結果は,トレーニングデータとネットワーク重み間の相互情報,すなわちベイズ最適一般化誤差に関連する境界の形で得られる。
論文 参考訳(メタデータ) (2023-07-11T08:30:50Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Gradient Descent in Neural Networks as Sequential Learning in RKBS [63.011641517977644]
初期重みの有限近傍にニューラルネットワークの正確な電力系列表現を構築する。
幅にかかわらず、勾配降下によって生成されたトレーニングシーケンスは、正規化された逐次学習によって正確に複製可能であることを証明した。
論文 参考訳(メタデータ) (2023-02-01T03:18:07Z) - EINNs: Epidemiologically-Informed Neural Networks [75.34199997857341]
本稿では,疫病予測のための新しい物理インフォームドニューラルネットワークEINNを紹介する。
メカニスティックモデルによって提供される理論的柔軟性と、AIモデルによって提供されるデータ駆動表現性の両方を活用する方法について検討する。
論文 参考訳(メタデータ) (2022-02-21T18:59:03Z) - With Greater Distance Comes Worse Performance: On the Perspective of
Layer Utilization and Model Generalization [3.6321778403619285]
ディープニューラルネットワークの一般化は、マシンラーニングにおける主要なオープンな問題の1つだ。
初期のレイヤは一般的に、トレーニングデータとテストデータの両方のパフォーマンスに関する表現を学びます。
より深いレイヤは、トレーニングのリスクを最小限に抑え、テストや不正なラベル付けされたデータとうまく連携できない。
論文 参考訳(メタデータ) (2022-01-28T05:26:32Z) - Learning and Generalization in Overparameterized Normalizing Flows [13.074242275886977]
正規化フロー(NF)は教師なし学習において重要なモデルのクラスである。
既存のNFモデルの大部分を含むNFのクラスでは、過度なパラメトリゼーションがトレーニングを損なうという理論的および実証的な証拠を提供する。
ネットワークが過度にパラメータ化されている場合、最小限の仮定の下で、制約のないNFが妥当なデータ分布を効率的に学習できることを実証する。
論文 参考訳(メタデータ) (2021-06-19T17:11:42Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - Deep Neural Networks and Neuro-Fuzzy Networks for Intellectual Analysis
of Economic Systems [0.0]
本稿では,ディープニューラルネットワークとニューロファジィネットに基づく時系列予測手法を提案する。
本稿では,ルールベースの方法論をディープラーニングニューラルネットワークに組み込むためのアプローチについても概説する。
論文 参考訳(メタデータ) (2020-11-11T06:21:08Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - On the Empirical Neural Tangent Kernel of Standard Finite-Width
Convolutional Neural Network Architectures [3.4698840925433765]
NTK理論が実際に一般的な幅の標準的なニューラルネットワークアーキテクチャをいかにうまくモデル化するかは、まだ明らかな疑問である。
我々はこの疑問を、AlexNetとLeNetという2つのよく知られた畳み込みニューラルネットワークアーキテクチャに対して実証的に研究する。
これらのネットワークのより広いバージョンでは、完全に接続されたレイヤのチャネル数や幅が増加すると、偏差は減少する。
論文 参考訳(メタデータ) (2020-06-24T11:40:36Z) - An Ode to an ODE [78.97367880223254]
我々は、O(d) 群上の行列フローに応じて主フローの時間依存パラメータが進化する ODEtoODE と呼ばれるニューラルODE アルゴリズムの新しいパラダイムを提案する。
この2つの流れのネストされたシステムは、訓練の安定性と有効性を提供し、勾配の消滅・爆発問題を確実に解決する。
論文 参考訳(メタデータ) (2020-06-19T22:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。