論文の概要: Global Low-Rank, Local Full-Rank: The Holographic Encoding of Learned Algorithms
- arxiv url: http://arxiv.org/abs/2602.18649v1
- Date: Fri, 20 Feb 2026 22:53:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.222046
- Title: Global Low-Rank, Local Full-Rank: The Holographic Encoding of Learned Algorithms
- Title(参考訳): Global Low-Rank, Local Full-Rank: The Holographic Encoding of Learned Algorithms
- Authors: Yongzhong Xu,
- Abstract要約: グルーク付き解は、学習方向の空間では全世界的に低ランクであるが、パラメータ空間では局所的にフルランクであることを示す。
我々はこれをホログラフィック符号化原理と呼び、圧縮、解釈可能性、ニューラルネットワークのエンコード方法の理解に影響を及ぼす。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grokking -- the abrupt transition from memorization to generalization after extended training -- has been linked to the emergence of low-dimensional structure in learning dynamics. Yet neural network parameters inhabit extremely high-dimensional spaces. How can a low-dimensional learning process produce solutions that resist low-dimensional compression? We investigate this question in multi-task modular arithmetic, training shared-trunk Transformers with separate heads for addition, multiplication, and a quadratic operation modulo 97. Across three model scales (315K--2.2M parameters) and five weight decay settings, we compare three reconstruction methods: per-matrix SVD, joint cross-matrix SVD, and trajectory PCA. Across all conditions, grokking trajectories are confined to a 2--6 dimensional global subspace, while individual weight matrices remain effectively full-rank. Reconstruction from 3--5 trajectory PCs recovers over 95\% of final accuracy, whereas both per-matrix and joint SVD fail at sub-full rank. Even when static decompositions capture most spectral energy, they destroy task-relevant structure. These results show that learned algorithms are encoded through dynamically coordinated updates spanning all matrices, rather than localized low-rank components. We term this the holographic encoding principle: grokked solutions are globally low-rank in the space of learning directions but locally full-rank in parameter space, with implications for compression, interpretability, and understanding how neural networks encode computation.
- Abstract(参考訳): 覚醒から拡張トレーニング後の一般化への突然の移行であるグローキングは、学習力学における低次元構造の出現と関連している。
しかし、ニューラルネットワークパラメータは非常に高次元空間に存在する。
低次元の学習プロセスは、どのようにして低次元の圧縮に抵抗する解を生成するのか?
マルチタスク・モジュラー算術において、加算、乗算、二次演算変調97の2つのヘッドを持つ共有トランク変換器を訓練する。
3つのモデルスケール(315K--2.2Mパラメータ)と5つの重み付き崩壊設定(315K--2.2Mパラメータ)を比較した。
すべての条件において、グルーキング軌道は2次元のグローバル部分空間に制限されるが、個々の重み行列は事実上フルランクのままである。
3-5軌道PCからの再構成では最終精度の95%以上を回復する一方,サブフルランクでは,マトリクス毎と関節SVDの両方が失敗する。
静的分解がほとんどのスペクトルエネルギーを捕捉しても、それらはタスク関連構造を破壊する。
これらの結果から,学習アルゴリズムは局所的な低ランク成分ではなく,すべての行列にまたがる動的に調整された更新によって符号化されることがわかった。
グラク付き解は、学習方向の空間では世界的に低ランクであるが、パラメータ空間では局所的にフルランクであり、圧縮、解釈可能性、ニューラルネットワークによる計算のエンコード方法の理解に影響を及ぼす。
関連論文リスト
- Low-Dimensional Execution Manifolds in Transformer Learning Dynamics: Evidence from Modular Arithmetic Tasks [0.0]
本稿では, 数値計算を慎重に制御し, 変圧器モデルにおける学習力学の構造について検討する。
その結果,トランスフォーマー学習を理解するための統一的な幾何学的枠組みが示唆された。
論文 参考訳(メタデータ) (2026-02-11T03:57:46Z) - GSPN-2: Efficient Parallel Sequence Modeling [101.33780567131716]
一般化空間伝搬ネットワーク(GSPN)は2次自己アテンションを直線走査型伝搬方式に置き換えることでこの問題に対処する。
GSPN-2は、視覚アプリケーションにおけるグローバル空間コンテキストをモデル化するための新しい効率フロンティアを確立する。
論文 参考訳(メタデータ) (2025-11-28T07:26:45Z) - Feedback Alignment Meets Low-Rank Manifolds: A Structured Recipe for Local Learning [7.034739490820967]
バックプロパゲーション(BP)を用いたディープニューラルネットワーク(DNN)のトレーニングは、最先端の精度を実現するが、大域的なエラー伝搬と完全なパラメータ化が必要である。
ダイレクトフィードバックアライメント(DFA)は、メモリ要件の低いローカルで並列化可能な更新を可能にする。
低ランク多様体上で直接動作する構造化局所学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-29T15:03:46Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - CodedVTR: Codebook-based Sparse Voxel Transformer with Geometric
Guidance [22.39628991021092]
本稿では,3次元スパースボクセルトランスのためのCodedVTR(Codebook-based Voxel TRansformer)を提案する。
一方、学習可能なコードブックにおける「プロトタイプ」の組み合わせで表されるサブ空間に注意空間を投影するコードブックベースの注意を提案する。
一方,幾何学的情報(幾何学的パターン,密度)を用いて注意学習を誘導する幾何学的自己注意を提案する。
論文 参考訳(メタデータ) (2022-03-18T11:50:25Z) - Atlas Based Representation and Metric Learning on Manifolds [0.0]
本稿では,ニューラルネットワークに基づく表現学習タスクのターゲット空間として,グラフの集合として表される位相多様体の利用について検討する。
これは、エンコーダのネットワークアーキテクチャの出力に対する簡単な調整と、正規化のための最大平均不一致(MMD)に基づく損失関数の追加によって達成される。
論文 参考訳(メタデータ) (2021-06-13T18:05:46Z) - Learning Local Neighboring Structure for Robust 3D Shape Representation [143.15904669246697]
3Dメッシュの表現学習は多くのコンピュータビジョンやグラフィックスアプリケーションにおいて重要である。
局所構造認識型異方性畳み込み操作(LSA-Conv)を提案する。
本モデルでは,3次元形状復元において最先端の手法に比べて顕著な改善が得られた。
論文 参考訳(メタデータ) (2020-04-21T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。