Fugu-MT 論文翻訳(概要): Latent Algorithmic Structure Precedes Grokking: A Mechanistic Study of ReLU MLPs on Modular Arithmetic

論文の概要: Latent Algorithmic Structure Precedes Grokking: A Mechanistic Study of ReLU MLPs on Modular Arithmetic

arxiv url: http://arxiv.org/abs/2603.23784v1
Date: Tue, 24 Mar 2026 23:36:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-26 21:06:11.055891
Title: Latent Algorithmic Structure Precedes Grokking: A Mechanistic Study of ReLU MLPs on Modular Arithmetic
Title（参考訳）: ラテントアルゴリズム構造がグラッキングに先行する:モジュラー算術におけるReLU MLPの力学的検討
Authors: Anand Swaroop,
Abstract要約: グロキングは、トレーニングデータが記憶された後、モジュラー2整数上のニューラルネットワークの検証精度が上昇する場所である。その結果,ReLUは2値近傍の2乗波入力重みを学習することがわかった。このことは、グラッキングが正しいアルゴリズムを発見するのではなく、暗記中に実質的に符号化されたアルゴリズムを研ぎ澄ますことを示唆している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Grokking-the phenomenon where validation accuracy of neural networks on modular addition of two integers rises long after training data has been memorized-has been characterized in previous works as producing sinusoidal input weight distributions in transformers and multi-layer perceptrons (MLPs). We find empirically that ReLU MLPs in our experimental setting instead learn near-binary square wave input weights, where intermediate-valued weights appear exclusively near sign-change boundaries, alongside output weight distributions whose dominant Fourier phases satisfy a phase-sum relation $φ_{\mathrm{out}} = φ_a + φ_b$; this relation holds even when the model is trained on noisy data and fails to grok. We extract the frequency and phase of each neuron's weights via DFT and construct an idealized MLP: Input weights are replaced by perfect binary square waves and output weights by cosines, both parametrized by the frequencies, phases, and amplitudes extracted from the dominant Fourier components of the real model weights. This idealized model achieves 95.5% accuracy when the frequencies and phases are extracted from the weights of a model trained on noisy data that itself achieves only 0.23% accuracy. This suggests that grokking does not discover the correct algorithm, but rather sharpens an algorithm substantially encoded during memorization, progressively binarizing the input weights into cleaner square waves and aligning the output weights, until generalization becomes possible.
Abstract（参考訳）: グラッキング-2つの整数のモジュラー加算に対するニューラルネットワークの検証精度がトレーニングデータから長い時間上昇する現象を記憶しており、従来の研究はトランスフォーマーと多層パーセプトロン(MLP)の正弦波入力重み分布の生成として特徴付けられていた。実験条件におけるReLU MLPは, 中間値の重みが符号-交換境界付近にのみ現れるような2次二乗波入力重みを学習する代わりに, 支配的なフーリエ位相が位相-sum関係を満足する出力重み分布である φ_{\mathrm{out}} = φ_a + φ_b$ を学習する。入力重みは完全二乗二乗波に置き換わり、出力重みはコサインによって出力され、どちらも実モデル重みの支配的なフーリエ成分から抽出される周波数、位相、振幅によってパラメタ化される。この理想化されたモデルは、周波数と位相がわずか0.23%の精度しか達成しないノイズデータに基づいて訓練されたモデルの重みから抽出された場合、95.5%の精度を達成する。このことは、グラッキングが正しいアルゴリズムを発見せず、むしろ暗記中に実質的に符号化されたアルゴリズムをシャープし、入力重みをよりクリーンな正方形波に段階的にバイナライズし、出力重みを調整し、一般化が可能であることを示唆している。

関連論文リスト

Self-Supervised Learning via Flow-Guided Neural Operator on Time-Series Data [57.85958428020496]
Flow-Guided Neural Operator (FGNO)は、演算子学習とフローマッチングを組み合わせた新しいフレームワークである。 FGNOは、短時間フーリエ変換を用いて関数空間のマッピングを学習し、異なる時間分解能を統一する。推論中にノイズのある入力を使用する以前の生成SSL法とは異なり、ノイズのある表現を学習しながら、クリーンな入力を用いて表現抽出を行う。
論文参考訳（メタデータ） (2026-02-12T18:54:57Z)
WUSH: Near-Optimal Adaptive Transforms for LLM Quantization [52.77441224845925]
低ビット幅への量子化は、大きな言語モデルをデプロイするための標準的なアプローチである。いくつかの極端な重みと活性化は、ダイナミックレンジを拡張し、量子化器の有効分解能を減少させる。結合重みアクティベーション量子化のための閉形式最適線形ブロックワイズ変換を初めて導出する。
論文参考訳（メタデータ） (2025-11-30T16:17:34Z)
High-Fidelity Prediction of Perturbed Optical Fields using Fourier Feature Networks [0.0]
本稿では,多モードファイバの摂動依存性伝達行列を学習する,データ効率のよい機械学習フレームワークを提案する。圧縮繊維による実験データから, 実測値と0.995の複素相関を持つ出力場を予測した。このアプローチは、スパース測定から複雑な光学系をモデル化するための一般的なツールを提供する。
論文参考訳（メタデータ） (2025-08-27T10:25:57Z)
Machine learning non-Markovian two-level quantum noise spectroscopy [0.0]
我々は,非エルミート2レベルシステムのための量子ノイズスペクトルの自動評価のための機械学習モデルを開発した。我々は、ランダムフォレスト、サポートベクトル、フィードフォワードニューラルネットワーク回帰アルゴリズムを用いて、2レベルシステムバス結合強度の高精度な回帰を行う。
論文参考訳（メタデータ） (2025-06-06T22:05:19Z)
Tuning the Frequencies: Robust Training for Sinusoidal Neural Networks [1.5124439914522694]
正弦波ネットワークの容量特性を説明する理論的枠組みを導入する。入力周波数の整数結合として表される多数の新しい周波数を,その層組成によってどのように生成するかを示す。提案手法はTUNERと呼ばれ, 正弦波INRトレーニングの安定性と収束性を大幅に改善し, より詳細な再建を行った。
論文参考訳（メタデータ） (2024-07-30T18:24:46Z)
Adaptive Multi-step Refinement Network for Robust Point Cloud Registration [82.64560249066734]
ポイントクラウド登録は、同じシーンの2つのポイントクラウド間の相対的な厳密な変換を推定する。本稿では,前ステップからの情報を活用することで,各ステップの登録品質を向上する適応型多段階改良ネットワークを提案する。本手法は3DMatch/3DLoMatchベンチマークとKITTIベンチマークの両方で最先端の性能を実現する。
論文参考訳（メタデータ） (2023-12-05T18:59:41Z)
Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文参考訳（メタデータ） (2022-11-26T01:56:05Z)
Autoencoder-driven Spiral Representation Learning for Gravitational Wave Surrogate Modelling [47.081318079190595]
オートエンコーダを用いた経験的係数における基礎構造の存在について検討する。ニューラルネットワークの第一層として使用される学習可能なパラメータを持つスパイラルモジュールを設計し,入力空間を係数にマッピングする方法を学習する。スパイラルモジュールは複数のニューラルネットワークアーキテクチャ上で評価され、ベースラインモデルよりも一貫して速度-精度のトレードオフを実現している。
論文参考訳（メタデータ） (2021-07-09T09:03:08Z)
Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文参考訳（メタデータ） (2021-03-01T08:25:26Z)
Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文参考訳（メタデータ） (2020-07-25T13:23:37Z)
Gravitational-wave parameter estimation with autoregressive neural network flows [0.0]
深部ニューラルネットワークを用いた重力波データから二元ブラックホール系のパラメータを高速に推定するための自己回帰正規化フローを導入する。正規化フロー(英: normalizing flow)は、単純な確率分布からより複雑なものへの変換を誘導するために用いられるサンプル空間上の可逆写像である。可変オートエンコーダフレームワークに自己回帰フローを組み込むことにより,より強力な潜在変数モデルを構築する。
論文参考訳（メタデータ） (2020-02-18T15:44:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。