論文の概要: On the Disconnect Between Theory and Practice of Overparametrized Neural
Networks
- arxiv url: http://arxiv.org/abs/2310.00137v1
- Date: Fri, 29 Sep 2023 20:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 06:22:09.601907
- Title: On the Disconnect Between Theory and Practice of Overparametrized Neural
Networks
- Title(参考訳): 過パラメータニューラルネットワークの理論と実践の切り離しについて
- Authors: Jonathan Wenger and Felix Dangel and Agustinus Kristiadi
- Abstract要約: ニューラルネットワーク(NN)の無限幅限界は、大規模で過度にパラメータ化されたネットワークの振る舞いを分析する理論的枠組みとして重要な注目を集めている。
本研究では,この制限機構が実際に使用される大型アーキテクチャの挙動を記述しているか,アルゴリズムの改良に有用かを検討する。
- 参考スコア(独自算出の注目度): 10.96191347868635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The infinite-width limit of neural networks (NNs) has garnered significant
attention as a theoretical framework for analyzing the behavior of large-scale,
overparametrized networks. By approaching infinite width, NNs effectively
converge to a linear model with features characterized by the neural tangent
kernel (NTK). This establishes a connection between NNs and kernel methods, the
latter of which are well understood. Based on this link, theoretical benefits
and algorithmic improvements have been hypothesized and empirically
demonstrated in synthetic architectures. These advantages include faster
optimization, reliable uncertainty quantification and improved continual
learning. However, current results quantifying the rate of convergence to the
kernel regime suggest that exploiting these benefits requires architectures
that are orders of magnitude wider than they are deep. This assumption raises
concerns that practically relevant architectures do not exhibit behavior as
predicted via the NTK. In this work, we empirically investigate whether the
limiting regime either describes the behavior of large-width architectures used
in practice or is informative for algorithmic improvements. Our empirical
results demonstrate that this is not the case in optimization, uncertainty
quantification or continual learning. This observed disconnect between theory
and practice calls into question the practical relevance of the infinite-width
limit.
- Abstract(参考訳): ニューラルネットワークの無限幅限界(nns)は、大規模で過パラメータのネットワークの振る舞いを分析する理論的枠組みとして大きな注目を集めている。
無限幅に近づくことで、NNはニューラルネットワークカーネル(NTK)の特徴を持つ線形モデルに効果的に収束する。
これはNNとカーネルメソッドの接続を確立し、後者はよく理解されている。
このリンクに基づいて、理論上の利点とアルゴリズム的な改善が合成アーキテクチャで仮定され、実証的に実証されている。
これらの利点には、高速な最適化、信頼性のある不確実性定量化、継続的な学習の改善などがある。
しかしながら、現在のカーネル体制への収束率の定量化の結果は、これらの利点を活用するには、それらよりも桁違いに広いアーキテクチャが必要であることを示唆している。
この仮定は、NTKが予測した振る舞いを実際に関連するアーキテクチャが示さないという懸念を引き起こす。
本研究では,制約レジームが実際の大規模アーキテクチャの動作を記述しているか,あるいはアルゴリズムの改善に役立つのかを実証的に検討する。
我々の経験的結果は、最適化や不確実性定量化、継続学習ではそうではないことを示している。
この観測は、無限幅極限の実践的関連性に疑問を呈する理論と実践的呼び出しの切り離しを観測した。
関連論文リスト
- Efficient kernel surrogates for neural network-based regression [0.8030359871216615]
ニューラルタンジェントカーネル(NTK)の効率的な近似である共役カーネル(CK)の性能について検討する。
CK性能がNTKよりもわずかに劣っていることを示し、特定の場合において、CK性能が優れていることを示す。
NTKの代わりにCKを使用するための理論的基盤を提供するだけでなく,DNNの精度を安価に向上するためのレシピを提案する。
論文 参考訳(メタデータ) (2023-10-28T06:41:47Z) - Neural Networks with Sparse Activation Induced by Large Bias: Tighter Analysis with Bias-Generalized NTK [86.45209429863858]
ニューラル・タンジェント・カーネル(NTK)における一層ReLUネットワークのトレーニングについて検討した。
我々は、ニューラルネットワークが、テクティトビア一般化NTKと呼ばれる異なる制限カーネルを持っていることを示した。
ニューラルネットの様々な特性をこの新しいカーネルで研究する。
論文 参考訳(メタデータ) (2023-01-01T02:11:39Z) - What Can the Neural Tangent Kernel Tell Us About Adversarial Robustness? [0.0]
ニューラルネットワークとカーネルメソッドを接続する最近の理論の進歩によって得られた分析ツールを用いて、トレーニングされたニューラルネットワークの逆例について研究する。
NTKがいかにして、トレーニングフリーのやり方で敵の例を生成できるかを示し、遅延のやり方で、有限幅のニューラルネットを騙すために移行することを実証する。
論文 参考訳(メタデータ) (2022-10-11T16:11:48Z) - Knowledge Enhanced Neural Networks for relational domains [83.9217787335878]
我々は、ニューラルネットワークに事前論理的知識を注入するニューラルネットワークアーキテクチャであるKENNに焦点を当てる。
本稿では,関係データに対するKENNの拡張を提案する。
論文 参考訳(メタデータ) (2022-05-31T13:00:34Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - Extended critical regimes of deep neural networks [0.0]
重み付き重みは、微調整パラメータを使わずに、拡張臨界状態の出現を可能にすることを示す。
この拡張クリティカルレジームでは、DNNは層間のリッチで複雑な伝播ダイナミクスを示す。
効率的なニューラルアーキテクチャの設計のための理論的ガイドを提供する。
論文 参考訳(メタデータ) (2022-03-24T10:15:50Z) - What can linearized neural networks actually say about generalization? [67.83999394554621]
ある無限大のニューラルネットワークにおいて、ニューラル・タンジェント・カーネル(NTK)理論は一般化を完全に特徴づける。
線形近似は、ニューラルネットワークの特定のタスクの学習複雑性を確実にランク付けできることを示す。
我々の研究は、将来の理論的研究を刺激する新しい深層学習現象の具体例を提供する。
論文 参考訳(メタデータ) (2021-06-12T13:05:11Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - On the Empirical Neural Tangent Kernel of Standard Finite-Width
Convolutional Neural Network Architectures [3.4698840925433765]
NTK理論が実際に一般的な幅の標準的なニューラルネットワークアーキテクチャをいかにうまくモデル化するかは、まだ明らかな疑問である。
我々はこの疑問を、AlexNetとLeNetという2つのよく知られた畳み込みニューラルネットワークアーキテクチャに対して実証的に研究する。
これらのネットワークのより広いバージョンでは、完全に接続されたレイヤのチャネル数や幅が増加すると、偏差は減少する。
論文 参考訳(メタデータ) (2020-06-24T11:40:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。