論文の概要: On the Disconnect Between Theory and Practice of Overparametrized Neural
Networks
- arxiv url: http://arxiv.org/abs/2310.00137v1
- Date: Fri, 29 Sep 2023 20:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 06:22:09.601907
- Title: On the Disconnect Between Theory and Practice of Overparametrized Neural
Networks
- Title(参考訳): 過パラメータニューラルネットワークの理論と実践の切り離しについて
- Authors: Jonathan Wenger and Felix Dangel and Agustinus Kristiadi
- Abstract要約: ニューラルネットワーク(NN)の無限幅限界は、大規模で過度にパラメータ化されたネットワークの振る舞いを分析する理論的枠組みとして重要な注目を集めている。
本研究では,この制限機構が実際に使用される大型アーキテクチャの挙動を記述しているか,アルゴリズムの改良に有用かを検討する。
- 参考スコア(独自算出の注目度): 10.96191347868635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The infinite-width limit of neural networks (NNs) has garnered significant
attention as a theoretical framework for analyzing the behavior of large-scale,
overparametrized networks. By approaching infinite width, NNs effectively
converge to a linear model with features characterized by the neural tangent
kernel (NTK). This establishes a connection between NNs and kernel methods, the
latter of which are well understood. Based on this link, theoretical benefits
and algorithmic improvements have been hypothesized and empirically
demonstrated in synthetic architectures. These advantages include faster
optimization, reliable uncertainty quantification and improved continual
learning. However, current results quantifying the rate of convergence to the
kernel regime suggest that exploiting these benefits requires architectures
that are orders of magnitude wider than they are deep. This assumption raises
concerns that practically relevant architectures do not exhibit behavior as
predicted via the NTK. In this work, we empirically investigate whether the
limiting regime either describes the behavior of large-width architectures used
in practice or is informative for algorithmic improvements. Our empirical
results demonstrate that this is not the case in optimization, uncertainty
quantification or continual learning. This observed disconnect between theory
and practice calls into question the practical relevance of the infinite-width
limit.
- Abstract(参考訳): ニューラルネットワークの無限幅限界(nns)は、大規模で過パラメータのネットワークの振る舞いを分析する理論的枠組みとして大きな注目を集めている。
無限幅に近づくことで、NNはニューラルネットワークカーネル(NTK)の特徴を持つ線形モデルに効果的に収束する。
これはNNとカーネルメソッドの接続を確立し、後者はよく理解されている。
このリンクに基づいて、理論上の利点とアルゴリズム的な改善が合成アーキテクチャで仮定され、実証的に実証されている。
これらの利点には、高速な最適化、信頼性のある不確実性定量化、継続的な学習の改善などがある。
しかしながら、現在のカーネル体制への収束率の定量化の結果は、これらの利点を活用するには、それらよりも桁違いに広いアーキテクチャが必要であることを示唆している。
この仮定は、NTKが予測した振る舞いを実際に関連するアーキテクチャが示さないという懸念を引き起こす。
本研究では,制約レジームが実際の大規模アーキテクチャの動作を記述しているか,あるいはアルゴリズムの改善に役立つのかを実証的に検討する。
我々の経験的結果は、最適化や不確実性定量化、継続学習ではそうではないことを示している。
この観測は、無限幅極限の実践的関連性に疑問を呈する理論と実践的呼び出しの切り離しを観測した。
関連論文リスト
- Efficient kernel surrogates for neural network-based regression [0.8030359871216615]
ニューラルタンジェントカーネル(NTK)の効率的な近似である共役カーネル(CK)の性能について検討する。
CK性能がNTKよりもわずかに劣っていることを示し、特定の場合において、CK性能が優れていることを示す。
NTKの代わりにCKを使用するための理論的基盤を提供するだけでなく,DNNの精度を安価に向上するためのレシピを提案する。
論文 参考訳(メタデータ) (2023-10-28T06:41:47Z) - Understanding Sparse Feature Updates in Deep Networks using Iterative
Linearisation [2.33877878310217]
本稿では,より大規模で深いネットワークが一般化する理由を解明する実験ツールとして,反復線形化学習法を考案する。
様々なケースにおいて、反復線形化トレーニングは、標準トレーニングと同程度に驚くほど機能することを示す。
また、優れたパフォーマンスには機能学習が不可欠であることも示しています。
論文 参考訳(メタデータ) (2022-11-22T15:34:59Z) - Deep Architecture Connectivity Matters for Its Convergence: A
Fine-Grained Analysis [94.64007376939735]
我々は、勾配降下訓練におけるディープニューラルネットワーク(DNN)の収束に対する接続パターンの影響を理論的に特徴づける。
接続パターンの単純なフィルタリングによって、評価対象のモデルの数を削減できることが示される。
論文 参考訳(メタデータ) (2022-05-11T17:43:54Z) - Comparative Analysis of Interval Reachability for Robust Implicit and
Feedforward Neural Networks [64.23331120621118]
我々は、暗黙的ニューラルネットワーク(INN)の堅牢性を保証するために、区間到達可能性分析を用いる。
INNは暗黙の方程式をレイヤとして使用する暗黙の学習モデルのクラスである。
提案手法は, INNに最先端の区間境界伝搬法を適用するよりも, 少なくとも, 一般的には, 有効であることを示す。
論文 参考訳(メタデータ) (2022-04-01T03:31:27Z) - Reinforcement Learning with External Knowledge by using Logical Neural
Networks [67.46162586940905]
論理ニューラルネットワーク(LNN)と呼ばれる最近のニューラルシンボリックフレームワークは、ニューラルネットワークとシンボリックロジックの両方のキープロパティを同時に提供することができる。
外部知識ソースからのモデルフリー強化学習を可能にする統合手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T12:34:59Z) - A Convergence Theory Towards Practical Over-parameterized Deep Neural
Networks [56.084798078072396]
ネットワーク幅と収束時間の両方で既知の理論境界を大幅に改善することにより、理論と実践のギャップを埋める一歩を踏み出します。
本研究では, サンプルサイズが2次幅で, 両者の時間対数で線形なネットワークに対して, 地球最小値への収束が保証されていることを示す。
私たちの分析と収束境界は、いつでも合理的なサイズの同等のRELUネットワークに変換できる固定アクティベーションパターンを備えたサロゲートネットワークの構築によって導出されます。
論文 参考訳(メタデータ) (2021-01-12T00:40:45Z) - Finite Versus Infinite Neural Networks: an Empirical Study [69.07049353209463]
カーネルメソッドは、完全に接続された有限幅ネットワークより優れている。
中心とアンサンブルの有限ネットワークは後続のばらつきを減らした。
重みの減衰と大きな学習率の使用は、有限ネットワークと無限ネットワークの対応を破る。
論文 参考訳(メタデータ) (2020-07-31T01:57:47Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。