Fugu-MT 論文翻訳(概要): Infinite Width Models That Work: Why Feature Learning Doesn't Matter as Much as You Think

論文の概要: Infinite Width Models That Work: Why Feature Learning Doesn't Matter as Much as You Think

arxiv url: http://arxiv.org/abs/2406.18800v2
Date: Wed, 23 Oct 2024 23:08:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.181609
Title: Infinite Width Models That Work: Why Feature Learning Doesn't Matter as Much as You Think
Title（参考訳）: 機能する無限幅モデル:なぜ機能学習があなたの考えるほど重要でないのか
Authors: Luke Sernau,
Abstract要約: 無限幅NTKでは特徴学習が不要であることを示す。また,NTKは,機能学習を人工的に無効にしても,従来の有限モデルよりも性能が低いことを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Common infinite-width architectures such as Neural Tangent Kernels (NTKs) have historically shown weak performance compared to finite models. This is usually attributed to the absence of feature learning. We show that this explanation is insufficient. Specifically, we show that infinite width NTKs obviate the need for feature learning. They can learn identical behavior by selecting relevant subfeatures from their (infinite) frozen feature vector. Furthermore, we show experimentally that NTKs under-perform traditional finite models even when feature learning is artificially disabled. Instead, we show that weak performance is at least partly due to the fact that existing constructions depend on weak optimizers like SGD. We provide a new infinite width limit based on ADAM-like learning dynamics and demonstrate empirically that the resulting models erase this performance gap.
Abstract（参考訳）: ニューラル・タンジェント・カーネル(NTK)のような一般的な無限幅アーキテクチャは、歴史的に有限モデルと比較して弱い性能を示している。これは通常、機能学習の欠如に起因する。この説明は不十分であることを示す。具体的には,無限幅NTKでは特徴学習が不要であることを示す。彼らは、(無限の)凍結特徴ベクトルから関連するサブフィーチャーを選択することで、同一の振る舞いを学ぶことができる。さらに, NTKは, 機能学習を人工的に無効にしても, 従来の有限モデルよりも性能が低いことを示す。代わりに、既存の構造はSGDのような弱い最適化器に依存しているため、少なくとも部分的には性能が弱いことが示される。我々はADAMライクな学習力学に基づく新しい無限幅制限を提案し、結果のモデルがこの性能ギャップを消し去ることを実証的に示す。

関連論文リスト

The Importance of Being Lazy: Scaling Limits of Continual Learning [60.97756735877614]
モデル幅の増大は,特徴学習の量を減らし,遅延度を高めた場合にのみ有益であることを示す。特徴学習,タスク非定常性,および忘れることの複雑な関係について検討し,高い特徴学習が極めて類似したタスクにのみ有用であることを示す。
論文参考訳（メタデータ） (2025-06-20T10:12:38Z)
Do Larger Language Models Imply Better Reasoning? A Pretraining Scaling Law for Reasoning [89.17086632436363]
本研究では,実世界の大規模知識グラフの構造と分布を再現する合成マルチホップ推論環境を提案する。我々の推論タスクは、グラフの欠落したエッジを補完することであり、これは高度なマルチホップ推論を必要とし、現実世界の推論シナリオを模倣する。特定の知識グラフに対して最適なモデルサイズを予測するために,知識グラフ探索エントロピーを最適モデルサイズに線形にマッピングする経験的スケーリングを求める。
論文参考訳（メタデータ） (2025-04-04T17:57:22Z)
How Well Can a Long Sequence Model Model Long Sequences? Comparing Architechtural Inductive Biases on Long-Context Abilities [0.6798775532273751]
システム工学の最近の進歩により、拡張コンテキスト長をサポートするために用意されたモデルのスケールアップが可能になった。このような主張は理論的に聞こえるかもしれないが、実証的に観察される大きな実践的ギャップが残っている。
論文参考訳（メタデータ） (2024-07-11T01:08:39Z)
More is Better in Modern Machine Learning: when Infinite Overparameterization is Optimal and Overfitting is Obligatory [12.689249854199982]
RF劣化試験のリスクは特徴数とサンプル数の両方で単調に低下することを示した。次に、パワーロー固有構造を特徴とするタスクの大規模なクラスにおいて、ほぼゼロに近いトレーニング損失に対するトレーニングが義務付けられていることを示す。
論文参考訳（メタデータ） (2023-11-24T18:27:41Z)
Nonparametric Classification on Low Dimensional Manifolds using Overparameterized Convolutional Residual Networks [82.03459331544737]
非パラメトリック分類の観点から重量減衰を訓練したConvResNeXtsの性能について検討した。我々の分析は、ConvResNeXtsにおいて無限に多くのビルディングブロックを許容し、重み減衰がこれらのブロックに空間性を暗黙的に強制することを示す。
論文参考訳（メタデータ） (2023-07-04T11:08:03Z)
Understanding Sparse Feature Updates in Deep Networks using Iterative Linearisation [2.33877878310217]
本稿では,より大規模で深いネットワークが一般化する理由を解明する実験ツールとして,反復線形化学習法を考案する。様々なケースにおいて、反復線形化トレーニングは、標準トレーニングと同程度に驚くほど機能することを示す。また、優れたパフォーマンスには機能学習が不可欠であることも示しています。
論文参考訳（メタデータ） (2022-11-22T15:34:59Z)
An Empirical Analysis of the Advantages of Finite- v.s. Infinite-Width Bayesian Neural Networks [25.135652514472238]
実験により,有限幅BNNと無限幅BNNを比較し,その性能差について定量的,質的な説明を行う。モデルが不特定の場合には,BNNの性能を損なう可能性がある。このような場合、有限幅のBNNは、その周波数スペクトルの特性によって部分的に一般化され、モデルミスマッチの下で適応できることを示す。
論文参考訳（メタデータ） (2022-11-16T20:07:55Z)
Chaos is a Ladder: A New Theoretical Understanding of Contrastive Learning via Augmentation Overlap [64.60460828425502]
コントラスト学習の下流性能に関する新たな保証を提案する。我々の新しい理論は、攻撃的なデータ強化の下で、異なるクラス内サンプルのサポートがより重なり合うという知見に基づいている。本稿では、下流の精度とよく一致した教師なしモデル選択距離ARCを提案する。
論文参考訳（メタデータ） (2022-03-25T05:36:26Z)
EIGNN: Efficient Infinite-Depth Graph Neural Networks [51.97361378423152]
グラフニューラルネットワーク(GNN)は多くのアプリケーションでグラフ構造化データのモデリングに広く利用されている。この制限により、無限深度GNNモデルを提案し、これをEIGNN(Efficient Infinite-Depth Graph Neural Networks)と呼ぶ。 EIGNNは、最近のベースラインよりも長距離依存関係をキャプチャする能力が優れており、常に最先端のパフォーマンスを実現していることを示す。
論文参考訳（メタデータ） (2022-02-22T08:16:58Z)
Extended Unconstrained Features Model for Exploring Deep Neural Collapse [59.59039125375527]
近年、ディープニューラルネットワークで「神経崩壊」(NC)と呼ばれる現象が経験的に観察されている。最近の論文は、単純化された「制約なし特徴モデル」を最適化する際に、この構造を持つ最小化器が出現することを示している。本稿では, 正規化MSE損失に対するUDFについて検討し, クロスエントロピーの場合よりも最小化器の特徴がより構造化可能であることを示す。
論文参考訳（メタデータ） (2022-02-16T14:17:37Z)
Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文参考訳（メタデータ） (2021-06-17T17:26:31Z)
Neural Additive Models: Interpretable Machine Learning with Neural Nets [77.66871378302774]
ディープニューラルネットワーク(DNN)は、さまざまなタスクにおいて優れたパフォーマンスを達成した強力なブラックボックス予測器である。本稿では、DNNの表現性と一般化した加法モデルの固有知性を組み合わせたニューラル付加モデル(NAM)を提案する。 NAMは、ニューラルネットワークの線形結合を学び、それぞれが単一の入力機能に付随する。
論文参考訳（メタデータ） (2020-04-29T01:28:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。