論文の概要: Grokking Finite-Dimensional Algebra
- arxiv url: http://arxiv.org/abs/2602.19533v1
- Date: Mon, 23 Feb 2026 05:55:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.692883
- Title: Grokking Finite-Dimensional Algebra
- Title(参考訳): グラッキング有限次元代数
- Authors: Pascal Jr Tikeng Notsawo, Guillaume Dumas, Guillaume Rabusseau,
- Abstract要約: グラッキングとは、長い記憶から、ニューラルネットワークのトレーニング中に観察される一般化への突然の移行を指す。
モデルが代数的要素の離散表現を学習しなければならないため、グラッキングが自然に現れることを示す。
- 参考スコア(独自算出の注目度): 5.471648649900293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the grokking phenomenon, which refers to the sudden transition from a long memorization to generalization observed during neural networks training, in the context of learning multiplication in finite-dimensional algebras (FDA). While prior work on grokking has focused mainly on group operations, we extend the analysis to more general algebraic structures, including non-associative, non-commutative, and non-unital algebras. We show that learning group operations is a special case of learning FDA, and that learning multiplication in FDA amounts to learning a bilinear product specified by the algebra's structure tensor. For algebras over the reals, we connect the learning problem to matrix factorization with an implicit low-rank bias, and for algebras over finite fields, we show that grokking emerges naturally as models must learn discrete representations of algebraic elements. This leads us to experimentally investigate the following core questions: (i) how do algebraic properties such as commutativity, associativity, and unitality influence both the emergence and timing of grokking, (ii) how structural properties of the structure tensor of the FDA, such as sparsity and rank, influence generalization, and (iii) to what extent generalization correlates with the model learning latent embeddings aligned with the algebra's representation. Our work provides a unified framework for grokking across algebraic structures and new insights into how mathematical structure governs neural network generalization dynamics.
- Abstract(参考訳): 本稿では,有限次元代数(FDA)における学習乗算の文脈において,長期記憶からニューラルネットワークトレーニング中に観察される一般化への突然の遷移を反映したグルーキング現象について検討する。
グラッキングに関する以前の研究は主に群演算に焦点が当てられていたが、非連想的、非可換、非単位代数を含むより一般的な代数構造に解析を拡張した。
学習グループ操作は、FDAの学習の特別な場合であり、FDAにおける学習の乗算は、代数の構造テンソルによって指定された双線型積の学習に比例することを示す。
実数体上の代数に対しては、学習問題を行列因数分解と暗黙の低ランクバイアスに結び付け、有限体上の代数に対しては、モデルが代数的要素の離散表現を学ばなければならないため、グラッキングが自然に現れることを示す。
これにより、以下の質問を実験的に調査することになります。
i) 可換性、連想性、ユニタリ性といった代数的性質は、グラッキングの出現とタイミングの両方にどのように影響を与えるか。
二 FDAの構造テンソルの構造的特性、例えば、疎度やランク、一般化にどのように影響するか
3) 一般化の程度は、代数の表現と一致した潜在埋め込みを学習するモデルと関連している。
我々の研究は、代数構造を網羅する統一的なフレームワークを提供し、数学的構造がニューラルネットワークの一般化力学をどのように支配するかに関する新たな洞察を提供する。
関連論文リスト
- Structural Disentanglement in Bilinear MLPs via Architectural Inductive Bias [0.0]
我々は、モデルがトレーニング中に内部表現をどのように構成するかから失敗が発生すると主張している。
線形パラメータ化は勾配流条件下での非混合特性を有することを示す。
ポイントワイズ非線形ネットワークとは異なり、乗法的アーキテクチャは、基礎となる代数構造と整合した真の作用素を復元することができる。
論文 参考訳(メタデータ) (2026-02-05T13:14:01Z) - Product Interaction: An Algebraic Formalism for Deep Learning Architectures [1.1885785138453553]
積の相互作用は、適切な代数上で定義された乗算作用素の合成からニューラルネットワーク層を構築する形式である。
我々の中心的な観察は、現代のニューラルネットワークにおける代数的表現は、線形、二次、高次の積の相互作用という観点で統一的な構成を持つことである。
論文 参考訳(メタデータ) (2026-01-31T07:14:01Z) - On the structural properties of Lie algebras via associated labeled directed graphs [0.0]
有限次元リー代数にラベル付き有向グラフを関連付ける方法を提案する。
リーブラケットの反対称性の性質とヤコビ恒等式が与えられた有理グラフの性質を解析する。
我々は、可解性、零性、イデアルの存在、単純性、半単純性、および代数の簡約性に関するグラフ理論の基準を開発する。
論文 参考訳(メタデータ) (2026-01-22T18:09:16Z) - Multiary gradings [0.0]
本稿では,多元群による階調の概念を導入し,代数演算と階調群演算との互換性条件について検討する。
この理論は、高次パワーグレーディングの存在やアリティ整合性に関する非自明な制約など、二項体に存在しない根本的に新しい現象を明らかにしている。
論文 参考訳(メタデータ) (2026-01-16T19:44:27Z) - Why Neural Network Can Discover Symbolic Structures with Gradient-based Training: An Algebraic and Geometric Foundation for Neurosymbolic Reasoning [73.18052192964349]
我々は、連続的なニューラルネットワークトレーニングのダイナミックスから、離散的なシンボル構造が自然に現れるかを説明する理論的枠組みを開発する。
ニューラルパラメータを測度空間に上げ、ワッサーシュタイン勾配流としてモデル化することにより、幾何的制約の下では、パラメータ測度 $mu_t$ が2つの同時現象となることを示す。
論文 参考訳(メタデータ) (2025-06-26T22:40:30Z) - Understanding In-Context Learning on Structured Manifolds: Bridging Attention to Kernel Methods [45.94152084965753]
我々は,アテンション機構と古典的カーネル手法の新たな接続を確立する。
トレーニングタスクの即時長と数の観点から一般化誤差境界を導出する。
この結果から, 一般化誤差がトレーニングタスク数でどのようにスケールするかを特徴付ける。
論文 参考訳(メタデータ) (2025-06-12T17:56:26Z) - Knowledgebra: An Algebraic Learning Framework for Knowledge Graph [15.235089177507897]
知識グラフ(KG)表現学習は、データセットに含まれる知識を一貫して表現できるように、エンティティと関係を密度の高い連続ベクトル空間に符号化することを目的としている。
我々は,KG の代数構造を観察し,KG の数学的言語を開発した。
本研究では,標準的なデータセット上での最先端性能を示す,単純な行列半群を用いたインスタンス化モデルSemEを実装した。
論文 参考訳(メタデータ) (2022-04-15T04:53:47Z) - Learning Algebraic Representation for Systematic Generalization in
Abstract Reasoning [109.21780441933164]
推論における体系的一般化を改善するためのハイブリッドアプローチを提案する。
我々はRaven's Progressive Matrices (RPM) の抽象的空間時間課題に対する代数的表現を用いたプロトタイプを紹介する。
得られた代数的表現は同型によって復号化して解を生成することができることを示す。
論文 参考訳(メタデータ) (2021-11-25T09:56:30Z) - Learning Algebraic Recombination for Compositional Generalization [71.78771157219428]
合成一般化のための代数的組換え学習のためのエンドツーエンドニューラルモデルLeARを提案する。
主要な洞察は、意味解析タスクを潜在構文代数学と意味代数学の間の準同型としてモデル化することである。
2つの現実的・包括的構成一般化の実験は、我々のモデルの有効性を実証している。
論文 参考訳(メタデータ) (2021-07-14T07:23:46Z) - LieTransformer: Equivariant self-attention for Lie Groups [49.9625160479096]
群等価ニューラルネットワークは群不変ニューラルネットワークの構成要素として用いられる。
我々は、文学の範囲を、ディープラーニングモデルの顕著な構築ブロックとして現れつつある自己注意にまで広げる。
任意のリー群とその離散部分群に同値なリー自己結合層からなる構造であるリー変換器を提案する。
論文 参考訳(メタデータ) (2020-12-20T11:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。