論文の概要: Quadratic models for understanding neural network dynamics
- arxiv url: http://arxiv.org/abs/2205.11787v1
- Date: Tue, 24 May 2022 05:03:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 15:12:36.198729
- Title: Quadratic models for understanding neural network dynamics
- Title(参考訳): ニューラルネットワークのダイナミクス理解のための二次モデル
- Authors: Libin Zhu, Chaoyue Liu, Adityanarayanan Radhakrishnan, Mikhail Belkin
- Abstract要約: 浅部ReLUネットワークの2次モデルでは, [Lewkowycz et al. 2020] の「触媒相」のようなある種の深層学習現象が現れた。
実験結果から,2次モデルの挙動は,特に大規模学習率体系において,一般化におけるニューラルネットワークの挙動と類似していることが示唆された。
- 参考スコア(独自算出の注目度): 18.190576651907456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose using a quadratic model as a tool for understanding
properties of wide neural networks in both optimization and generalization. We
show analytically that certain deep learning phenomena such as the "catapult
phase" from [Lewkowycz et al. 2020], which cannot be captured by linear models,
are manifested in the quadratic model for shallow ReLU networks. Furthermore,
our empirical results indicate that the behaviour of quadratic models parallels
that of neural networks in generalization, especially in the large learning
rate regime. We expect that quadratic models will serve as a useful tool for
analysis of neural networks.
- Abstract(参考訳): 本研究では、最適化と一般化の両方において、広範ニューラルネットワークの特性を理解するためのツールとして二次モデルを提案する。
線形モデルでは捉えられない[lewkowycz et al. 2020]の「カタパルト相」のようなある種の深層学習現象が浅層reluネットワークの二次モデルに現れることを解析的に示した。
さらに,2次モデルの挙動は,特に大規模学習率体系において,一般化においてニューラルネットワークの挙動と平行であることを示す。
我々は、二次モデルがニューラルネットワークの分析に有用なツールになることを期待している。
関連論文リスト
- Graph Neural Networks for Learning Equivariant Representations of Neural Networks [55.04145324152541]
本稿では,ニューラルネットワークをパラメータの計算グラフとして表現することを提案する。
我々のアプローチは、ニューラルネットワークグラフを多種多様なアーキテクチャでエンコードする単一モデルを可能にする。
本稿では,暗黙的ニューラル表現の分類や編集など,幅広いタスクにおける本手法の有効性を示す。
論文 参考訳(メタデータ) (2024-03-18T18:01:01Z) - A Survey on Statistical Theory of Deep Learning: Approximation, Training Dynamics, and Generative Models [13.283281356356161]
本稿では3つの観点から,ニューラルネットワークの統計理論に関する文献をレビューする。
ニューラルネットワークの過剰なリスクに関する調査結果をレビューする。
ニューラルネットワークが、目に見えないデータでうまく一般化できるソリューションを見つける方法に答えようとする論文」をレビューする。
論文 参考訳(メタデータ) (2024-01-14T02:30:19Z) - Six Lectures on Linearized Neural Networks [15.880450613409302]
まず、ニューラルネットワークと線形モデルとの対応を遅延状態(lazy regime)と呼ぶ方法で思い出す。
次に、線形化ニューラルネットワークの4つのモデルについてレビューする: 集中した特徴を持つ線形回帰、カーネルリッジ回帰、ランダム特徴モデル、ニューラルタンジェントモデル。
論文 参考訳(メタデータ) (2023-08-25T15:23:06Z) - How neural networks learn to classify chaotic time series [77.34726150561087]
本研究では,通常の逆カオス時系列を分類するために訓練されたニューラルネットワークの内部動作について検討する。
入力周期性とアクティベーション周期の関係は,LKCNNモデルの性能向上の鍵となる。
論文 参考訳(メタデータ) (2023-06-04T08:53:27Z) - Sparse deep neural networks for modeling aluminum electrolysis dynamics [0.5257115841810257]
我々は、アルミニウム電解シミュレータのシステムダイナミクスをモデル化するためにスパースニューラルネットワークを訓練する。
スパースモデル構造は、対応する高密度ニューラルネットワークと比較して、モデル複雑さを著しく低減する。
実験により、スパースモデルが高密度ニューラルネットワークよりも小さなトレーニングセットからより一般化されることが示されている。
論文 参考訳(メタデータ) (2022-09-13T09:11:50Z) - EINNs: Epidemiologically-Informed Neural Networks [75.34199997857341]
本稿では,疫病予測のための新しい物理インフォームドニューラルネットワークEINNを紹介する。
メカニスティックモデルによって提供される理論的柔軟性と、AIモデルによって提供されるデータ駆動表現性の両方を活用する方法について検討する。
論文 参考訳(メタデータ) (2022-02-21T18:59:03Z) - Sparse Flows: Pruning Continuous-depth Models [107.98191032466544]
生成モデルにおいて,プルーニングによりニューラルネットワークの一般化が向上することを示す。
また、プルーニングは、元のネットワークに比べて最大98%少ないパラメータで、精度を損なうことなく、最小かつ効率的なニューラルODE表現を見出すことを示した。
論文 参考訳(メタデータ) (2021-06-24T01:40:17Z) - The Neural Coding Framework for Learning Generative Models [91.0357317238509]
本稿では,脳の予測処理理論に触発された新しい神経生成モデルを提案する。
同様に、私たちの生成モデルにおける人工ニューロンは、隣接するニューロンが何をするかを予測し、予測が現実にどの程度一致するかに基づいてパラメータを調整します。
論文 参考訳(メタデータ) (2020-12-07T01:20:38Z) - A Bayesian Perspective on Training Speed and Model Selection [51.15664724311443]
モデルのトレーニング速度の測定値を用いて,その限界確率を推定できることを示す。
線形モデルと深部ニューラルネットワークの無限幅限界に対するモデル選択タスクの結果を検証する。
以上の結果から、勾配勾配勾配で訓練されたニューラルネットワークが、一般化する関数に偏りがある理由を説明するための、有望な新たな方向性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T17:56:14Z) - Learning Queuing Networks by Recurrent Neural Networks [0.0]
データから性能モデルを導出する機械学習手法を提案する。
我々は、通常の微分方程式のコンパクトな系の観点から、それらの平均力学の決定論的近似を利用する。
これにより、ニューラルネットワークの解釈可能な構造が可能になり、システム測定からトレーニングしてホワイトボックスパラメータ化モデルを生成することができる。
論文 参考訳(メタデータ) (2020-02-25T10:56:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。