論文の概要: Superposition unifies power-law training dynamics
- arxiv url: http://arxiv.org/abs/2602.01045v1
- Date: Sun, 01 Feb 2026 06:05:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.556
- Title: Superposition unifies power-law training dynamics
- Title(参考訳): 重ね合わせは、パワー・ロー・トレーニングのダイナミクスを統一する
- Authors: Zixin Jessie Chen, Hao Chen, Yizhou Liu, Jeff Gore,
- Abstract要約: パワー・ロー・トレーニング・ダイナミクスの出現における特徴重畳の役割について検討する。
まず、重ね合わせのないトレーニングのための分析理論を導出する。
重ね合わせのボトルネックは、$sim 1$の普遍的なパワーロー指数への移行を引き起こす。
- 参考スコア(独自算出の注目度): 6.874132000933929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the role of feature superposition in the emergence of power-law training dynamics using a teacher-student framework. We first derive an analytic theory for training without superposition, establishing that the power-law training exponent depends on both the input data statistics and channel importance. Remarkably, we discover that a superposition bottleneck induces a transition to a universal power-law exponent of $\sim 1$, independent of data and channel statistics. This one over time training with superposition represents an up to tenfold acceleration compared to the purely sequential learning that takes place in the absence of superposition. Our finding that superposition leads to rapid training with a data-independent power law exponent may have important implications for a wide range of neural networks that employ superposition, including production-scale large language models.
- Abstract(参考訳): 教師学生の枠組みを用いた力覚訓練の台頭に特徴重畳が果たす役割について検討する。
まず、重ね合わせのないトレーニングのための分析理論を導出し、パワーロートレーニング指数が入力データ統計量とチャネルの重要性の両方に依存することを確かめる。
注目すべきことに、重畳ボトルネックはデータとチャネル統計とは独立に$\sim 1$の普遍的なパワーロー指数への移行を引き起こす。
この重ね合わせによる時間外トレーニングは、重ね合わせのない純粋なシーケンシャルな学習と比較して最大10倍の加速を表現している。
重畳がデータ非依存の電力法指数による迅速な訓練につながるという発見は、大規模大規模言語モデルを含む、重畳を用いた幅広いニューラルネットワークに重要な意味を持つ可能性がある。
関連論文リスト
- Fast State-Augmented Learning for Wireless Resource Allocation with Dual Variable Regression [83.27791109672927]
本稿では,資源割当ポリシに対する状態拡張グラフニューラルネットワーク(GNN)のパラメトリゼーションが,ユビキタスな二段階的手法の欠点を回避する方法を示す。
ラグランジアンによる国家拡張政策の最大化は、オフライントレーニングフェーズ中に学習される。
収束結果と指数確率は、双対函数(有限値)最適性ギャップの剰余に縛られることを証明する。
論文 参考訳(メタデータ) (2025-06-23T15:20:58Z) - Models of Heavy-Tailed Mechanistic Universality [62.107333654304014]
トレーニングニューラルネットワークにおける重み付け行動を引き起こす属性を探索するために,ランダム行列モデルのファミリーを提案する。
このモデルの下では、3つの独立した因子の組み合わせによって、尾翼の電力法則によるスペクトル密度が生じる。
ニューラルネットワークトレーニングの5段階以上において、ニューラルネットワークのスケーリング法則、軌道、および5段階以上の位相を含む重尾の出現に対する我々のモデルの影響について論じる。
論文 参考訳(メタデータ) (2025-06-04T00:55:01Z) - Implicit bias produces neural scaling laws in learning curves, from perceptrons to deep networks [12.108234998867337]
我々は,異なるノルムベースの複雑性尺度の関数として,パフォーマンスの進化を規定する2つの新しいテキスト力学的スケーリング法則を同定する。
我々の発見は、CNN、ResNets、MNIST、CIFAR-10、CIFAR-100で訓練されたVision Transformersで一致している。
我々は,ロジスティックな損失で訓練された単一層パーセプトロンを用いて解析支援を行い,新しい動的スケーリング法則を導出する。
論文 参考訳(メタデータ) (2025-05-19T15:13:36Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Analyzing Neural Scaling Laws in Two-Layer Networks with Power-Law Data Spectra [0.0]
ニューラルスケーリング法則は、深層ニューラルネットワークのパフォーマンスが、トレーニングデータサイズ、モデルの複雑さ、トレーニング時間などの重要な要因とどのようにスケールするかを記述する。
我々は, 統計力学の手法を用いて, 生徒-教員間の一パス勾配勾配を解析する。
論文 参考訳(メタデータ) (2024-10-11T17:21:42Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - What training reveals about neural network complexity [80.87515604428346]
この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。
我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-08T08:58:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。