論文の概要: Superposition unifies power-law training dynamics
- arxiv url: http://arxiv.org/abs/2602.01045v1
- Date: Sun, 01 Feb 2026 06:05:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.556
- Title: Superposition unifies power-law training dynamics
- Title(参考訳): 重ね合わせは、パワー・ロー・トレーニングのダイナミクスを統一する
- Authors: Zixin Jessie Chen, Hao Chen, Yizhou Liu, Jeff Gore,
- Abstract要約: パワー・ロー・トレーニング・ダイナミクスの出現における特徴重畳の役割について検討する。
まず、重ね合わせのないトレーニングのための分析理論を導出する。
重ね合わせのボトルネックは、$sim 1$の普遍的なパワーロー指数への移行を引き起こす。
- 参考スコア(独自算出の注目度): 6.874132000933929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the role of feature superposition in the emergence of power-law training dynamics using a teacher-student framework. We first derive an analytic theory for training without superposition, establishing that the power-law training exponent depends on both the input data statistics and channel importance. Remarkably, we discover that a superposition bottleneck induces a transition to a universal power-law exponent of $\sim 1$, independent of data and channel statistics. This one over time training with superposition represents an up to tenfold acceleration compared to the purely sequential learning that takes place in the absence of superposition. Our finding that superposition leads to rapid training with a data-independent power law exponent may have important implications for a wide range of neural networks that employ superposition, including production-scale large language models.
- Abstract(参考訳): 教師学生の枠組みを用いた力覚訓練の台頭に特徴重畳が果たす役割について検討する。
まず、重ね合わせのないトレーニングのための分析理論を導出し、パワーロートレーニング指数が入力データ統計量とチャネルの重要性の両方に依存することを確かめる。
注目すべきことに、重畳ボトルネックはデータとチャネル統計とは独立に$\sim 1$の普遍的なパワーロー指数への移行を引き起こす。
この重ね合わせによる時間外トレーニングは、重ね合わせのない純粋なシーケンシャルな学習と比較して最大10倍の加速を表現している。
重畳がデータ非依存の電力法指数による迅速な訓練につながるという発見は、大規模大規模言語モデルを含む、重畳を用いた幅広いニューラルネットワークに重要な意味を持つ可能性がある。
関連論文リスト
- A Theory of How Pretraining Shapes Inductive Bias in Fine-Tuning [51.505728136705564]
我々は, 対角線ネットワークにおけるプレトレーニングファインチューニングパイプラインの解析理論を開発した。
異なる初期化選択により、ネットワークは4つの異なる微調整レジームに分類される。
以前の階層の縮小により、ネットワークは機能の再利用と洗練を両立することができ、より優れた一般化を実現している。
論文 参考訳(メタデータ) (2026-02-23T17:19:33Z) - Fast State-Augmented Learning for Wireless Resource Allocation with Dual Variable Regression [83.27791109672927]
本稿では,資源割当ポリシに対する状態拡張グラフニューラルネットワーク(GNN)のパラメトリゼーションが,ユビキタスな二段階的手法の欠点を回避する方法を示す。
ラグランジアンによる国家拡張政策の最大化は、オフライントレーニングフェーズ中に学習される。
収束結果と指数確率は、双対函数(有限値)最適性ギャップの剰余に縛られることを証明する。
論文 参考訳(メタデータ) (2025-06-23T15:20:58Z) - Models of Heavy-Tailed Mechanistic Universality [62.107333654304014]
トレーニングニューラルネットワークにおける重み付け行動を引き起こす属性を探索するために,ランダム行列モデルのファミリーを提案する。
このモデルの下では、3つの独立した因子の組み合わせによって、尾翼の電力法則によるスペクトル密度が生じる。
ニューラルネットワークトレーニングの5段階以上において、ニューラルネットワークのスケーリング法則、軌道、および5段階以上の位相を含む重尾の出現に対する我々のモデルの影響について論じる。
論文 参考訳(メタデータ) (2025-06-04T00:55:01Z) - The emergence of sparse attention: impact of data distribution and benefits of repetition [14.652502263025882]
本研究では,トランスフォーマーにおける重要かつ頻繁な注意パターンであるスパースアテンションのトレーニングに伴う出現について検討した。
玩具モデルの理論的解析と線形回帰変種を訓練した小型変圧器の経験的観察を組み合わせることで,機械的スパークアテンションの出現を明らかにする。
我々の研究は、データ分布とモデル設計が1つの形態の台頭の背後にある学習力学にどのように影響するかを理解するための、シンプルで理論的に基礎的なフレームワークを提供する。
論文 参考訳(メタデータ) (2025-05-23T13:14:02Z) - Implicit bias produces neural scaling laws in learning curves, from perceptrons to deep networks [12.108234998867337]
我々は,異なるノルムベースの複雑性尺度の関数として,パフォーマンスの進化を規定する2つの新しいテキスト力学的スケーリング法則を同定する。
我々の発見は、CNN、ResNets、MNIST、CIFAR-10、CIFAR-100で訓練されたVision Transformersで一致している。
我々は,ロジスティックな損失で訓練された単一層パーセプトロンを用いて解析支援を行い,新しい動的スケーリング法則を導出する。
論文 参考訳(メタデータ) (2025-05-19T15:13:36Z) - In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。
この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文 参考訳(メタデータ) (2025-03-17T02:00:49Z) - Analyzing Neural Scaling Laws in Two-Layer Networks with Power-Law Data Spectra [0.0]
ニューラルスケーリング法則は、深層ニューラルネットワークのパフォーマンスが、トレーニングデータサイズ、モデルの複雑さ、トレーニング時間などの重要な要因とどのようにスケールするかを記述する。
我々は, 統計力学の手法を用いて, 生徒-教員間の一パス勾配勾配を解析する。
論文 参考訳(メタデータ) (2024-10-11T17:21:42Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - The Information Pathways Hypothesis: Transformers are Dynamic
Self-Ensembles [24.52890377175555]
本研究では,学習中の自己注意の記憶と計算コストを4~8倍に削減できる変圧器の汎用的学習戦略を提案する。
本研究では,ネットワーク内のサブサンプリング経路からサブモデルのアンサンブルを生成できることを示す。
論文 参考訳(メタデータ) (2023-06-02T17:28:46Z) - What training reveals about neural network complexity [80.87515604428346]
この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。
我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-08T08:58:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。