論文の概要: Learning words in groups: fusion algebras, tensor ranks and grokking
- arxiv url: http://arxiv.org/abs/2509.06931v1
- Date: Mon, 08 Sep 2025 17:43:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.295892
- Title: Learning words in groups: fusion algebras, tensor ranks and grokking
- Title(参考訳): 群における単語の学習:融合代数学、テンソル階数、グルーキング
- Authors: Maor Shutman, Oren Louidor, Ran Tessler,
- Abstract要約: 単純な2層ニューラルネットワークは任意の単語操作を任意の有限群で学習できることを示す。
ネットワークはストラッセンの意味で効率的な行列乗法を効果的に実装していることを示す。
私たちの研究は、勾配降下下でネットワークがそのような解に達するメカニズムにも光を当てています。
- 参考スコア(独自算出の注目度): 0.06554326244334864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we demonstrate that a simple two-layer neural network with standard activation functions can learn an arbitrary word operation in any finite group, provided sufficient width is available and exhibits grokking while doing so. To explain the mechanism by which this is achieved, we reframe the problem as that of learning a particular $3$-tensor, which we show is typically of low rank. A key insight is that low-rank implementations of this tensor can be obtained by decomposing it along triplets of basic self-conjugate representations of the group and leveraging the fusion structure to rule out many components. Focusing on a phenomenologically similar but more tractable surrogate model, we show that the network is able to find such low-rank implementations (or approximations thereof), thereby using limited width to approximate the word-tensor in a generalizable way. In the case of the simple multiplication word, we further elucidate the form of these low-rank implementations, showing that the network effectively implements efficient matrix multiplication in the sense of Strassen. Our work also sheds light on the mechanism by which a network reaches such a solution under gradient descent.
- Abstract(参考訳): 本研究では,標準的なアクティベーション関数を持つ単純な2層ニューラルネットワークが任意の単語操作を任意の有限群で学習できることを実証する。
これを達成したメカニズムを説明するために、私たちは問題を特定の3ドルのテンソルを学習する方法として再設計し、典型的には低いランクであることを示した。
鍵となる洞察は、このテンソルの低ランクな実装は、群の基本自己共役表現の三重項に沿って分解し、融合構造を利用して多くの成分を除外することで得られるということである。
現象論的に類似するが、よりトラクタブルなサロゲートモデルに注目すると、ネットワークはそのような低ランクな実装(あるいはその近似)を見つけることができ、限られた幅で単語テンソルを一般化可能な方法で近似することができることを示す。
単純な乗算語の場合、これらの低ランク実装の形式をさらに解明し、ネットワークがストラッセンの意味で効率的な行列乗算を効果的に実装していることを示す。
私たちの研究は、勾配降下下でネットワークがそのような解に達するメカニズムにも光を当てています。
関連論文リスト
- A Diagrammatic Approach to Improve Computational Efficiency in Group Equivariant Neural Networks [1.9643748953805935]
群同変ニューラルネットワークは、データが基礎となる対称性を知っているアプリケーションでよく一般化する能力のために、重要性が増している。
近年,高次テンソルパワー空間を層として用いたネットワークのクラスの特徴化は,それらに有意なポテンシャルがあることを示唆している。
これらのネットワーク内のテンソルパワー層間を4つのグループでマッピングする任意の同変重み行列に対する高速行列乗算アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-14T14:08:06Z) - SpaceMesh: A Continuous Representation for Learning Manifold Surface Meshes [61.110517195874074]
本稿では,ニューラルネットワークの出力として,複雑な接続性を持つ多様体多角形メッシュを直接生成する手法を提案する。
私たちの重要なイノベーションは、各メッシュで連続的な遅延接続空間を定義することです。
アプリケーションでは、このアプローチは生成モデルから高品質な出力を得るだけでなく、メッシュ修復のような挑戦的な幾何処理タスクを直接学習することを可能にする。
論文 参考訳(メタデータ) (2024-09-30T17:59:03Z) - Recurrent Neural Networks Learn to Store and Generate Sequences using Non-Linear Representations [54.17275171325324]
線形表現仮説(LRH)に対する反例を提示する。
入力トークンシーケンスを繰り返すように訓練されると、ニューラルネットワークは、方向ではなく、特定の順序で各位置のトークンを表現することを学ぶ。
これらの結果は、解釈可能性の研究はLRHに限定されるべきでないことを強く示唆している。
論文 参考訳(メタデータ) (2024-08-20T15:04:37Z) - Stack operation of tensor networks [10.86105335102537]
本稿では,テンソルネットワークスタックアプローチに対する数学的に厳密な定義を提案する。
本稿では、行列製品状態に基づく機械学習を例として、主なアイデアを例に挙げる。
論文 参考訳(メタデータ) (2022-03-28T12:45:13Z) - Dynamic Inference with Neural Interpreters [72.90231306252007]
本稿では,モジュールシステムとしての自己アテンションネットワークにおける推論を分解するアーキテクチャであるNeural Interpretersを提案する。
モデルへの入力は、エンドツーエンドの学習方法で一連の関数を通してルーティングされる。
ニューラル・インタープリタは、より少ないパラメータを用いて視覚変換器と同等に動作し、サンプル効率で新しいタスクに転送可能であることを示す。
論文 参考訳(メタデータ) (2021-10-12T23:22:45Z) - Asymptotics of Network Embeddings Learned via Subsampling [4.23373349945751]
本研究では,ノード2vecのようなサブサンプリング手法を用いて,単一の統一フレームワークへの表現手法について検討する。
これは、埋め込みベクトルが何を表現し、これらのメソッドが下流のタスクでいかにうまく機能するかを理解するための理論的基盤を提供する。
特に、一般的に使用される損失関数は、Fisher整合性の欠如などの欠点を引き起こす可能性があることを観察する。
論文 参考訳(メタデータ) (2021-07-06T02:54:53Z) - Redundant representations help generalization in wide neural networks [71.38860635025907]
様々な最先端の畳み込みニューラルネットワークの最後に隠された層表現について検討する。
最後に隠された表現が十分に広ければ、そのニューロンは同一の情報を持つグループに分裂し、統計的に独立したノイズによってのみ異なる傾向にある。
論文 参考訳(メタデータ) (2021-06-07T10:18:54Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z) - Inductive Graph Embeddings through Locality Encodings [0.42970700836450487]
ドメイン依存のノード/エッジ属性を使わずに,大規模ネットワークにインダクティブネットワークを組み込むことの問題点を考察する。
本稿では,学習アルゴリズムの基盤として,基本的定義済みの局所符号化を用いることを提案する。
本手法は,役割検出,リンク予測,ノード分類などのタスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2020-09-26T13:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。