Fugu-MT 論文翻訳(概要): FACT: the Features At Convergence Theorem for neural networks

論文の概要: FACT: the Features At Convergence Theorem for neural networks

arxiv url: http://arxiv.org/abs/2507.05644v1
Date: Tue, 08 Jul 2025 03:52:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-09 16:34:37.554209
Title: FACT: the Features At Convergence Theorem for neural networks
Title（参考訳）: FACT:ニューラルネットワークの収束理論における特徴
Authors: Enric Boix-Adsera, Neil Mallinar, James B. Simon, Mikhail Belkin,
Abstract要約: 非ゼロウェイト崩壊の訓練において,ニューラルネットワークの重みが収束時に満足する自己整合方程式を与えるコンバージェンス定理 (FACT) の特徴を証明した。我々はこの関係を実証的に検証し、神経的特徴が収束時のFACTを本当に満足していることを示した。 Radhakrishnanらの"Recursive Feature Machines"を修正して、FACTに従うようにすることで、新しい学習アルゴリズムであるFACT-RFMにたどり着く。
参考スコア（独自算出の注目度）: 11.578851413831247
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A central challenge in deep learning theory is to understand how neural networks learn and represent features. To this end, we prove the Features at Convergence Theorem (FACT), which gives a self-consistency equation that neural network weights satisfy at convergence when trained with nonzero weight decay. For each weight matrix $W$, this equation relates the "feature matrix" $W^\top W$ to the set of input vectors passed into the matrix during forward propagation and the loss gradients passed through it during backpropagation. We validate this relation empirically, showing that neural features indeed satisfy the FACT at convergence. Furthermore, by modifying the "Recursive Feature Machines" of Radhakrishnan et al. 2024 so that they obey the FACT, we arrive at a new learning algorithm, FACT-RFM. FACT-RFM achieves high performance on tabular data and captures various feature learning behaviors that occur in neural network training, including grokking in modular arithmetic and phase transitions in learning sparse parities.
Abstract（参考訳）: ディープラーニング理論における中心的な課題は、ニューラルネットワークがどのように機能を学び、表現するかを理解することである。この目的のために、収束定理(FACT)の特徴を証明し、ニューラルネットワークの重みが収束時に満たされる自己整合方程式を与える。各重み行列 $W$ に対して、この方程式は「機能行列」$W^\top W$ と、前方伝播中に行列に渡される入力ベクトルの集合と、後方伝播時に通過する損失勾配とを関連付ける。我々はこの関係を実証的に検証し、神経的特徴が収束時のFACTを本当に満足していることを示した。さらに、Radhakrishnanらの"Recursive Feature Machines"を修正して、FACTに従うようにすることで、新しい学習アルゴリズムであるFACT-RFMにたどり着く。 FACT-RFMは、グラフデータ上で高いパフォーマンスを実現し、モジュラー演算のグラッキングやスパースパリティ学習の位相遷移など、ニューラルネットワークトレーニングで発生する様々な特徴学習挙動をキャプチャする。

関連論文リスト

Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。 SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文参考訳（メタデータ） (2025-03-12T17:33:13Z)
Fourier Circuits in Neural Networks and Transformers: A Case Study of Modular Arithmetic with Multiple Inputs [35.212818841550835]
一層ニューラルネットワークと一層トランスフォーマーの研究を行った。 1つの隠れた層ニューラルネットワークは、データセット上で最大$L_2,k+1$-marginに達する。同様の計算機構を1層変換器に注意して観察する。
論文参考訳（メタデータ） (2024-02-12T05:52:06Z)
On the hardness of learning under symmetries [31.961154082757798]
勾配勾配勾配を用いた同変ニューラルネットワークの学習問題について検討する。対称性による帰納バイアスにもかかわらず、実際には勾配降下を通じて同変ニューラルネットワークで表される関数の完全なクラスを学習することは難しいままである。
論文参考訳（メタデータ） (2024-01-03T18:24:18Z)
Deep neural networks have an inbuilt Occam's razor [4.330196787806085]
構造データとOccam's razor-likeインダクティブバイアスが組み合わさった単純な関数に対する構造データは、複雑さを伴う関数の指数的成長に反することを示す。この分析により、構造データと(コルモゴロフ)単純関数に対するOccam's razor-likeインダクティブバイアスが組み合わさって、複雑さを伴う関数の指数的成長に対抗できるほど強いことがDNNの成功の鍵であることが明らかになった。
論文参考訳（メタデータ） (2023-04-13T16:58:21Z)
Permutation Equivariant Neural Functionals [92.0667671999604]
この研究は、他のニューラルネットワークの重みや勾配を処理できるニューラルネットワークの設計を研究する。隠れた層状ニューロンには固有の順序がないため, 深いフィードフォワードネットワークの重みに生じる置換対称性に着目する。実験の結果, 置換同変ニューラル関数は多種多様なタスクに対して有効であることがわかった。
論文参考訳（メタデータ） (2023-02-27T18:52:38Z)
Neural networks trained with SGD learn distributions of increasing complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。その後、トレーニング中にのみ高次の統計を利用する。本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文参考訳（メタデータ） (2022-11-21T15:27:22Z)
Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文参考訳（メタデータ） (2022-02-01T17:11:13Z)
Optimal Approximation with Sparse Neural Networks and Applications [0.0]
深い疎結合ニューラルネットワークを用いて、関数クラスの複雑性を$L(mathbb Rd)$で測定する。また、ニューラルネットワークを誘導する関数の可算コレクションである表現システムについても紹介する。次に、レート歪曲理論とウェッジレット構成を用いて、$beta$マンガ的関数と呼ばれるクラスの複雑性を分析する。
論文参考訳（メタデータ） (2021-08-14T05:14:13Z)
Connecting Weighted Automata, Tensor Networks and Recurrent Neural Networks through Spectral Learning [58.14930566993063]
我々は、形式言語と言語学からの重み付き有限オートマトン(WFA)、機械学習で使用されるリカレントニューラルネットワーク、テンソルネットワークの3つのモデル間の接続を提示する。本稿では,連続ベクトル入力の列上に定義された線形2-RNNに対する最初の証明可能な学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-10-19T15:28:00Z)
Learning compositional functions via multiplicative weight updates [97.9457834009578]
乗算重み更新は構成関数に合わせた降下補題を満たすことを示す。マダムは、学習率のチューニングなしに、最先端のニューラルネットワークアーキテクチャをトレーニングできることを示す。
論文参考訳（メタデータ） (2020-06-25T17:05:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。