論文の概要: Breaking Data Symmetry is Needed For Generalization in Feature Learning Kernels
- arxiv url: http://arxiv.org/abs/2604.00316v1
- Date: Tue, 31 Mar 2026 23:28:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.765013
- Title: Breaking Data Symmetry is Needed For Generalization in Feature Learning Kernels
- Title(参考訳): 特徴学習カーネルの一般化にデータ対称性を破る必要がある
- Authors: Marcel Tomàs Bernal, Neil Rohit Mallinar, Mikhail Belkin,
- Abstract要約: 本稿では,Recursive Feature Machine (RFM)アルゴリズムを用いて,特徴学習カーネルのクラスにおける代数的タスクのグラクキングについて検討する。
我々の主な実験的な発見は、一般化はトレーニングセットの特定の対称性が破られたときにのみ起こることである。
- 参考スコア(独自算出の注目度): 12.613436727986658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grokking occurs when a model achieves high training accuracy but generalization to unseen test points happens long after that. This phenomenon was initially observed on a class of algebraic problems, such as learning modular arithmetic (Power et al., 2022). We study grokking on algebraic tasks in a class of feature learning kernels via the Recursive Feature Machine (RFM) algorithm (Radhakrishnan et al., 2024), which iteratively updates feature matrices through the Average Gradient Outer Product (AGOP) of an estimator in order to learn task-relevant features. Our main experimental finding is that generalization occurs only when a certain symmetry in the training set is broken. Furthermore, we empirically show that RFM generalizes by recovering the underlying invariance group action inherent in the data. We find that the learned feature matrices encode specific elements of the invariance group, explaining the dependence of generalization on symmetry.
- Abstract(参考訳): グロッキングは、モデルが高いトレーニング精度を達成したときに起こるが、見つからないテストポイントへの一般化は、そのずっと後に起こる。
この現象は、モジュラー算術(Power et al , 2022)の学習など、代数的問題のクラスで最初に観察された。
本稿では,タスク関連特徴を学習するために,推定器の平均勾配外積 (AGOP) を通じて特徴行列を反復的に更新するRecursive Feature Machine (RFM) アルゴリズム (Radhakrishnan et al , 2024) を用いて,機能学習カーネルのクラスにおける代数的タスクのグルーキングについて検討する。
我々の主な実験的な発見は、一般化はトレーニングセットの特定の対称性が破られたときにのみ起こることである。
さらに、RAMがデータ固有の不変群作用を回復することによって一般化することを示す。
学習した特徴行列は不変群の特定の要素を符号化し、一般化の対称性への依存を説明する。
関連論文リスト
- Algebraic Machine Learning: Learning as computing an algebraic decomposition of a task [41.94295877935867]
本稿では,学習の分析を容易にする数学を用いた抽象代数に基づく代替基盤を提案する。
このアプローチでは、タスクとデータのゴールは代数の公理として符号化され、これらの公理とそれらの論理結果のみが成立するモデルが得られる。
我々は、MNIST、FashionMNIST、CIFAR-10、医療画像などの標準データセット上でこの新しい学習原則を検証し、最適化された多層パーセプトロンに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-02-27T10:13:42Z) - A Random Matrix Theory Perspective on the Spectrum of Learned Features and Asymptotic Generalization Capabilities [30.737171081270322]
完全に接続された2層ニューラルネットワークは、単一だが攻撃的な勾配降下ステップの後、ターゲット関数にどのように適応するかを検討する。
これは、2層ニューラルネットワークの一般化における特徴学習の影響を、ランダムな特徴や遅延トレーニング体制を超えて、はっきりと説明してくれる。
論文 参考訳(メタデータ) (2024-10-24T17:24:34Z) - Symmetry Discovery for Different Data Types [52.2614860099811]
等価ニューラルネットワークは、そのアーキテクチャに対称性を取り入れ、より高度な一般化性能を実現する。
本稿では,タスクの入出力マッピングを近似したトレーニングニューラルネットワークによる対称性発見手法であるLieSDを提案する。
我々は,2体問題,慣性行列予測のモーメント,トップクォークタグ付けといった課題におけるLieSDの性能を検証した。
論文 参考訳(メタデータ) (2024-10-13T13:39:39Z) - Understanding Matrix Function Normalizations in Covariance Pooling through the Lens of Riemannian Geometry [63.694184882697435]
グローバル共分散プーリング(GCP)は、高レベルの表現の2階統計を利用して、ディープニューラルネットワーク(DNN)の性能を向上させることが実証されている。
本稿では、リーマン幾何学の観点から行列対数とパワーの包括的かつ統一的な理解を提供する。
論文 参考訳(メタデータ) (2024-07-15T07:11:44Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
リッジ回帰に関する最近の結果について統一的な視点を提示する。
我々は、物理とディープラーニングの背景を持つ読者を対象に、ランダム行列理論と自由確率の基本的なツールを使用する。
我々の結果は拡張され、初期のスケーリング法則のモデルについて統一的な視点を提供する。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Linear Recursive Feature Machines provably recover low-rank matrices [17.530511273384786]
我々は、RFMが次元還元を行うための最初の理論的保証を開発する。
反復重み付き最小二乗法 (IRLS) アルゴリズムを一般化する。
我々の結果は、ニューラルネットワークにおける特徴学習と古典的なスパースリカバリアルゴリズムの関連性に光を当てた。
論文 参考訳(メタデータ) (2024-01-09T13:44:12Z) - Out-of-Distribution Generalization in Kernel Regression [21.958028127426196]
トレーニングとテストの分布が異なる場合のカーネル回帰の一般化について検討する。
与えられたカーネルの分布間のミスマッチを定量化する重なり行列を同定する。
本研究では,データ予算に対するトレーニングとテストの配分を最適化する手法を開発し,そのシフトの下で最良のケースと最悪のケースの一般化を求める。
論文 参考訳(メタデータ) (2021-06-04T04:54:25Z) - Benign overfitting in ridge regression [0.0]
過度にパラメータ化されたリッジ回帰に対する漸近的でない一般化境界を提供する。
最小あるいは負の正則化が小さい一般化誤差を得るのに十分であるかどうかを同定する。
論文 参考訳(メタデータ) (2020-09-29T20:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。