論文の概要: Infinite Width Models That Work: Why Feature Learning Doesn't Matter as Much as You Think
- arxiv url: http://arxiv.org/abs/2406.18800v2
- Date: Wed, 23 Oct 2024 23:08:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:51:13.486974
- Title: Infinite Width Models That Work: Why Feature Learning Doesn't Matter as Much as You Think
- Title(参考訳): 機能する無限幅モデル:なぜ機能学習があなたの考えるほど重要でないのか
- Authors: Luke Sernau,
- Abstract要約: 無限幅NTKでは特徴学習が不要であることを示す。
また,NTKは,機能学習を人工的に無効にしても,従来の有限モデルよりも性能が低いことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Common infinite-width architectures such as Neural Tangent Kernels (NTKs) have historically shown weak performance compared to finite models. This is usually attributed to the absence of feature learning. We show that this explanation is insufficient. Specifically, we show that infinite width NTKs obviate the need for feature learning. They can learn identical behavior by selecting relevant subfeatures from their (infinite) frozen feature vector. Furthermore, we show experimentally that NTKs under-perform traditional finite models even when feature learning is artificially disabled. Instead, we show that weak performance is at least partly due to the fact that existing constructions depend on weak optimizers like SGD. We provide a new infinite width limit based on ADAM-like learning dynamics and demonstrate empirically that the resulting models erase this performance gap.
- Abstract(参考訳): ニューラル・タンジェント・カーネル(NTK)のような一般的な無限幅アーキテクチャは、歴史的に有限モデルと比較して弱い性能を示している。
これは通常、機能学習の欠如に起因する。
この説明は不十分であることを示す。
具体的には,無限幅NTKでは特徴学習が不要であることを示す。
彼らは、(無限の)凍結特徴ベクトルから関連するサブフィーチャーを選択することで、同一の振る舞いを学ぶことができる。
さらに, NTKは, 機能学習を人工的に無効にしても, 従来の有限モデルよりも性能が低いことを示す。
代わりに、既存の構造はSGDのような弱い最適化器に依存しているため、少なくとも部分的には性能が弱いことが示される。
我々はADAMライクな学習力学に基づく新しい無限幅制限を提案し、結果のモデルがこの性能ギャップを消し去ることを実証的に示す。
関連論文リスト
- How Well Can a Long Sequence Model Model Long Sequences? Comparing Architechtural Inductive Biases on Long-Context Abilities [0.6798775532273751]
システム工学の最近の進歩により、拡張コンテキスト長をサポートするために用意されたモデルのスケールアップが可能になった。
このような主張は理論的に聞こえるかもしれないが、実証的に観察される大きな実践的ギャップが残っている。
論文 参考訳(メタデータ) (2024-07-11T01:08:39Z) - Why do Learning Rates Transfer? Reconciling Optimization and Scaling
Limits for Deep Learning [77.82908213345864]
学習速度伝達が$mu$Pとその深さ拡張の下では、トレーニング損失Hessianの最大の固有値がネットワークの幅と深さに大きく依存しているという事実から、経験的証拠が得られている。
ニューラル・タンジェント・カーネル(NTK)体制下では、シャープネスは異なるスケールで非常に異なるダイナミクスを示し、学習速度の伝達を妨げている。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - More is Better in Modern Machine Learning: when Infinite Overparameterization is Optimal and Overfitting is Obligatory [12.689249854199982]
RF劣化試験のリスクは特徴数とサンプル数の両方で単調に低下することを示した。
次に、パワーロー固有構造を特徴とするタスクの大規模なクラスにおいて、ほぼゼロに近いトレーニング損失に対するトレーニングが義務付けられていることを示す。
論文 参考訳(メタデータ) (2023-11-24T18:27:41Z) - Nonparametric Classification on Low Dimensional Manifolds using
Overparameterized Convolutional Residual Networks [82.03459331544737]
非パラメトリック分類の観点から重量減衰を訓練したConvResNeXtsの性能について検討した。
我々の分析は、ConvResNeXtsにおいて無限に多くのビルディングブロックを許容し、重み減衰がこれらのブロックに空間性を暗黙的に強制することを示す。
論文 参考訳(メタデータ) (2023-07-04T11:08:03Z) - Understanding Sparse Feature Updates in Deep Networks using Iterative
Linearisation [2.33877878310217]
本稿では,より大規模で深いネットワークが一般化する理由を解明する実験ツールとして,反復線形化学習法を考案する。
様々なケースにおいて、反復線形化トレーニングは、標準トレーニングと同程度に驚くほど機能することを示す。
また、優れたパフォーマンスには機能学習が不可欠であることも示しています。
論文 参考訳(メタデータ) (2022-11-22T15:34:59Z) - An Empirical Analysis of the Advantages of Finite- v.s. Infinite-Width
Bayesian Neural Networks [25.135652514472238]
実験により,有限幅BNNと無限幅BNNを比較し,その性能差について定量的,質的な説明を行う。
モデルが不特定の場合には,BNNの性能を損なう可能性がある。
このような場合、有限幅のBNNは、その周波数スペクトルの特性によって部分的に一般化され、モデルミスマッチの下で適応できることを示す。
論文 参考訳(メタデータ) (2022-11-16T20:07:55Z) - Chaos is a Ladder: A New Theoretical Understanding of Contrastive
Learning via Augmentation Overlap [64.60460828425502]
コントラスト学習の下流性能に関する新たな保証を提案する。
我々の新しい理論は、攻撃的なデータ強化の下で、異なるクラス内サンプルのサポートがより重なり合うという知見に基づいている。
本稿では、下流の精度とよく一致した教師なしモデル選択距離ARCを提案する。
論文 参考訳(メタデータ) (2022-03-25T05:36:26Z) - EIGNN: Efficient Infinite-Depth Graph Neural Networks [51.97361378423152]
グラフニューラルネットワーク(GNN)は多くのアプリケーションでグラフ構造化データのモデリングに広く利用されている。
この制限により、無限深度GNNモデルを提案し、これをEIGNN(Efficient Infinite-Depth Graph Neural Networks)と呼ぶ。
EIGNNは、最近のベースラインよりも長距離依存関係をキャプチャする能力が優れており、常に最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2022-02-22T08:16:58Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Neural Additive Models: Interpretable Machine Learning with Neural Nets [77.66871378302774]
ディープニューラルネットワーク(DNN)は、さまざまなタスクにおいて優れたパフォーマンスを達成した強力なブラックボックス予測器である。
本稿では、DNNの表現性と一般化した加法モデルの固有知性を組み合わせたニューラル付加モデル(NAM)を提案する。
NAMは、ニューラルネットワークの線形結合を学び、それぞれが単一の入力機能に付随する。
論文 参考訳(メタデータ) (2020-04-29T01:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。