論文の概要: The Features at Convergence Theorem: a first-principles alternative to the Neural Feature Ansatz for how networks learn representations
- arxiv url: http://arxiv.org/abs/2507.05644v2
- Date: Fri, 05 Sep 2025 01:58:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.209773
- Title: The Features at Convergence Theorem: a first-principles alternative to the Neural Feature Ansatz for how networks learn representations
- Title(参考訳): Convergence Theoremにおける特徴:ネットワークが表現を学習する方法のためのニューラル・フィーチャー・アンザッツに代わる第一原理
- Authors: Enric Boix-Adsera, Neil Mallinar, James B. Simon, Mikhail Belkin,
- Abstract要約: 主要なアプローチはニューラル・フィーチャー・アンザッツ(NFA)である。
NFAは経験的に検証されているが、教育された推測であり、理論的な基礎が欠落している。
我々は、この観察がなぜ、いつ、そうでないのかを理解するために、第一原理のアプローチをとる。
- 参考スコア(独自算出の注目度): 16.67524623230699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is a central challenge in deep learning to understand how neural networks learn representations. A leading approach is the Neural Feature Ansatz (NFA) (Radhakrishnan et al. 2024), a conjectured mechanism for how feature learning occurs. Although the NFA is empirically validated, it is an educated guess and lacks a theoretical basis, and thus it is unclear when it might fail, and how to improve it. In this paper, we take a first-principles approach to understanding why this observation holds, and when it does not. We use first-order optimality conditions to derive the Features at Convergence Theorem (FACT), an alternative to the NFA that (a) obtains greater agreement with learned features at convergence, (b) explains why the NFA holds in most settings, and (c) captures essential feature learning phenomena in neural networks such as grokking behavior in modular arithmetic and phase transitions in learning sparse parities, similarly to the NFA. Thus, our results unify theoretical first-order optimality analyses of neural networks with the empirically-driven NFA literature, and provide a principled alternative that provably and empirically holds at convergence.
- Abstract(参考訳): ニューラルネットワークが表現をどう学習するかを理解することは、ディープラーニングにおける中心的な課題である。
主要なアプローチはニューラル・フィーチャー・アンザッツ(NFA)(Radhakrishnan et al 2024)である。
NFAは実証的に検証されているが、教育された推測であり、理論的根拠が欠けているため、いつ失敗するか、どのように改善するかは不明である。
本稿では,この観測がなぜ成り立つのか,そうでないのかを理解するために,第一原理的アプローチをとる。
我々は、NFAの代替である収束定理(FACT)における特徴を導出するために、一階最適条件を用いる。
(a)収束時に学習した特徴とのより深い合意を得る。
(b)NFAがほとんどの設定で保持する理由を説明し、
(c)NFAと同様、モジュラー算術におけるグルーキング動作や、スパースパリティ学習における位相遷移などのニューラルネットワークにおける重要な特徴学習現象をキャプチャする。
そこで本研究では,ニューラルネットワークの理論的一階最適性解析を実験駆動型NFA文献と統合し,実証的かつ実験的に収束する原理的な代替手段を提案する。
関連論文リスト
- Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。
SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。
このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文 参考訳(メタデータ) (2025-03-12T17:33:13Z) - Fourier Circuits in Neural Networks and Transformers: A Case Study of Modular Arithmetic with Multiple Inputs [35.212818841550835]
一層ニューラルネットワークと一層トランスフォーマーの研究を行った。
1つの隠れた層ニューラルネットワークは、データセット上で最大$L_2,k+1$-marginに達する。
同様の計算機構を1層変換器に注意して観察する。
論文 参考訳(メタデータ) (2024-02-12T05:52:06Z) - On the hardness of learning under symmetries [31.961154082757798]
勾配勾配勾配を用いた同変ニューラルネットワークの学習問題について検討する。
対称性による帰納バイアスにもかかわらず、実際には勾配降下を通じて同変ニューラルネットワークで表される関数の完全なクラスを学習することは難しいままである。
論文 参考訳(メタデータ) (2024-01-03T18:24:18Z) - Deep neural networks have an inbuilt Occam's razor [4.330196787806085]
構造データとOccam's razor-likeインダクティブバイアスが組み合わさった単純な関数に対する構造データは、複雑さを伴う関数の指数的成長に反することを示す。
この分析により、構造データと(コルモゴロフ)単純関数に対するOccam's razor-likeインダクティブバイアスが組み合わさって、複雑さを伴う関数の指数的成長に対抗できるほど強いことがDNNの成功の鍵であることが明らかになった。
論文 参考訳(メタデータ) (2023-04-13T16:58:21Z) - Permutation Equivariant Neural Functionals [92.0667671999604]
この研究は、他のニューラルネットワークの重みや勾配を処理できるニューラルネットワークの設計を研究する。
隠れた層状ニューロンには固有の順序がないため, 深いフィードフォワードネットワークの重みに生じる置換対称性に着目する。
実験の結果, 置換同変ニューラル関数は多種多様なタスクに対して有効であることがわかった。
論文 参考訳(メタデータ) (2023-02-27T18:52:38Z) - Neural networks trained with SGD learn distributions of increasing
complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。
その後、トレーニング中にのみ高次の統計を利用する。
本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文 参考訳(メタデータ) (2022-11-21T15:27:22Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Optimal Approximation with Sparse Neural Networks and Applications [0.0]
深い疎結合ニューラルネットワークを用いて、関数クラスの複雑性を$L(mathbb Rd)$で測定する。
また、ニューラルネットワークを誘導する関数の可算コレクションである表現システムについても紹介する。
次に、レート歪曲理論とウェッジレット構成を用いて、$beta$マンガ的関数と呼ばれるクラスの複雑性を分析する。
論文 参考訳(メタデータ) (2021-08-14T05:14:13Z) - Connecting Weighted Automata, Tensor Networks and Recurrent Neural
Networks through Spectral Learning [58.14930566993063]
我々は、形式言語と言語学からの重み付き有限オートマトン(WFA)、機械学習で使用されるリカレントニューラルネットワーク、テンソルネットワークの3つのモデル間の接続を提示する。
本稿では,連続ベクトル入力の列上に定義された線形2-RNNに対する最初の証明可能な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-10-19T15:28:00Z) - Learning compositional functions via multiplicative weight updates [97.9457834009578]
乗算重み更新は構成関数に合わせた降下補題を満たすことを示す。
マダムは、学習率のチューニングなしに、最先端のニューラルネットワークアーキテクチャをトレーニングできることを示す。
論文 参考訳(メタデータ) (2020-06-25T17:05:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。