論文の概要: SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning
- arxiv url: http://arxiv.org/abs/2602.02472v1
- Date: Mon, 02 Feb 2026 18:52:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.383599
- Title: SPARKLING: Balancing Signal Preservation and Symmetry Breaking for Width-Progressive Learning
- Title(参考訳): SPARKling: ウィッジプログレッシブラーニングのための信号保存と対称性ブレーキングのバランスをとる
- Authors: Qifan Yu, Xinyu Ma, Zhijian Zhuo, Minrui Wang, Deyi Liu, Shiyi Zhan, Yiyuan Ma, Liang Xiang, Xingyan Bin, Di He,
- Abstract要約: 本研究では,中段幅拡張のための新しいフレームワークであるSPARKINGを提案する。
SPARKlingは、スクラッチからトレーニングを一貫して上回り、トレーニングコストを最大35%削減する。
- 参考スコア(独自算出の注目度): 14.801991185971465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Progressive Learning (PL) reduces pre-training computational overhead by gradually increasing model scale. While prior work has extensively explored depth expansion, width expansion remains significantly understudied, with the few existing methods limited to the early stages of training. However, expanding width during the mid-stage is essential for maximizing computational savings, yet it remains a formidable challenge due to severe training instabilities. Empirically, we show that naive initialization at this stage disrupts activation statistics, triggering loss spikes, while copy-based initialization introduces gradient symmetry that hinders feature diversity. To address these issues, we propose SPARKLING (balancing {S}ignal {P}reservation {A}nd symmet{R}y brea{K}ing for width-progressive {L}earn{ING}), a novel framework for mid-stage width expansion. Our method achieves signal preservation via RMS-scale consistency, stabilizing activation statistics during expansion. Symmetry breaking is ensured through asymmetric optimizer state resetting and learning rate re-warmup. Extensive experiments on Mixture-of-Experts (MoE) models demonstrate that, across multiple width axes and optimizer families, SPARKLING consistently outperforms training from scratch and reduces training cost by up to 35% under $2\times$ width expansion.
- Abstract(参考訳): プログレッシブラーニング(PL)は、徐々にモデルスケールを増大させることで、事前学習の計算オーバーヘッドを低減する。
先行研究は深度拡大を広範囲に検討してきたが、既存の手法は訓練の初期段階に限られており、幅拡大は著しく検討されている。
しかし, 計算コストを最大化するためには, 中間段階の幅拡大が不可欠である。
実験により,本段階での素早い初期化は活性化統計を妨害し,損失スパイクを誘発する一方,コピーベースの初期化は特徴の多様性を妨げる勾配対称性をもたらすことを示した。
これらの問題に対処するため,SPARKING (balancing {S}ignal {P}reservation {A}nd symmet{R}y brea{K}ing for width-progressive {L}earn{ING})を提案する。
提案手法は,RMSスケールの整合性による信号保存を実現し,拡張時のアクティベーション統計を安定化する。
対称性の破れは、非対称なオプティマイザ状態のリセットと学習率の再ウォームアップによって保証される。
Mixture-of-Experts(MoE)モデルに関する大規模な実験では、複数の幅軸とオプティマイザファミリーで、SPARKlingはスクラッチからトレーニングを一貫して上回り、最大35%のトレーニングコストを2/times$の幅拡張で削減している。
関連論文リスト
- SPEAR++: Scaling Gradient Inversion via Sparsely-Used Dictionary Learning [48.41770886055744]
Federated Learningは最近、現実世界のシナリオへのデプロイが増えている。
いわゆる勾配反転攻撃の導入は、プライバシー保護特性に挑戦している。
本稿では,ReLU活性化を伴う線形層の勾配の理論的解析に基づくSPEARを紹介する。
新たな攻撃であるSPEAR++は、DPノイズに対する堅牢性やFedAvgアグリゲーションなど、SPEARの望ましい特性をすべて保持しています。
論文 参考訳(メタデータ) (2025-10-28T09:06:19Z) - Tracing the Representation Geometry of Language Models from Pretraining to Post-training [22.18942718274405]
本研究では,事前学習と後学習にまたがる学習表現の幾何学をスペクトル的に検討する。
自己回帰事前学習中に3つの幾何位相の一貫した非単調列が発見された。
SFTとDPOは、特定の命令データや優先データを統合するために「エントロピー探索」ダイナミクスを駆動します。
論文 参考訳(メタデータ) (2025-09-27T00:46:29Z) - Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration [61.350777880329815]
Reinforcement Learning with Verifiable Reward (RLVR)は、大規模言語モデルにおける推論能力をアンロックするための強力なパラダイムとして登場した。
RLVRの完全なポテンシャルは、モデルがサンプリングできる最も難しい深さと、単一のイテレーションで消費されるインスタンスの数という2つの未探索の次元によって妨げられていることを示す。
本稿では,多段ロールアウトによる難易度再重み付けを行うDARS(Difficulty Adaptive Rollout Smpling)を提案する。
論文 参考訳(メタデータ) (2025-08-19T11:51:40Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Retraining-free Model Quantization via One-Shot Weight-Coupling Learning [41.299675080384]
混合精度量子化(MPQ)は、層に不均一なビット幅を割り当てることで、モデルを効果的に圧縮することを提唱する。
MPQは典型的には、探索訓練された2段階のプロセスに編成される。
本稿では,混合精度モデル圧縮のためのワンショットトレーニング探索パラダイムを考案する。
論文 参考訳(メタデータ) (2024-01-03T05:26:57Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。