論文の概要: StoSignSGD: Unbiased Structural Stochasticity Fixes SignSGD for Training Large Language Models
- arxiv url: http://arxiv.org/abs/2604.15416v1
- Date: Thu, 16 Apr 2026 17:55:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.598565
- Title: StoSignSGD: Unbiased Structural Stochasticity Fixes SignSGD for Training Large Language Models
- Title(参考訳): StoSignSGD: 大規模言語モデルのトレーニングのためのSignSGDの修正
- Authors: Dingzhi Yu, Rui Pan, Yuxing Liu, Tong Zhang,
- Abstract要約: SignSGDのような符号ベースの最適化アルゴリズムは、分散学習と大規模基盤モデルの訓練において、顕著な性能で大きな注目を集めている。
実験的な優位性にもかかわらず、SignSGDは非テキスト・平滑な目的において分岐することが知られている。
我々はbfStoSignSGDを提案する。bfStoSignSGDは、不偏更新ステップを維持しつつ、手話演算子に構造性を注入するアルゴリズムである。
- 参考スコア(独自算出の注目度): 16.690425653502256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign-based optimization algorithms, such as SignSGD, have garnered significant attention for their remarkable performance in distributed learning and training large foundation models. Despite their empirical superiority, SignSGD is known to diverge on non-smooth objectives, which are ubiquitous in modern machine learning due to ReLUs, max-pools, and mixture-of-experts. To overcome this fundamental limitation, we propose \textbf{StoSignSGD}, an algorithm that injects structural stochasticity into the sign operator while maintaining an unbiased update step. In the regime of (online) convex optimization, our theoretical analysis shows that StoSignSGD rigorously resolves the non-convergence issues of SignSGD, achieving a sharp convergence rate matching the lower bound. For the more challenging non-convex non-smooth optimization, we introduce generalized stationary measures that encompass prior definitions, proving that StoSignSGD improves upon the best-known complexity bounds by dimensional factors. Empirically, StoSignSGD exhibits robust stability and superior efficiency across diverse large language model (LLM) training regimes. Notably, in low-precision FP8 pretraining -- a setting where AdamW fails catastrophically -- StoSignSGD remains highly stable and yields a remarkable 1.44$\times$ to 2.14$\times$ speedup relative to established baselines. Furthermore, when fine-tuning 7B LLMs on mathematical reasoning tasks, StoSignSGD delivers substantial performance gains over both AdamW and SignSGD. Finally, to dissect the mechanisms driving its success, we develop a sign conversion framework capable of transforming any general optimizer into its unbiased, sign-based counterpart. Utilizing this framework, we deconstruct the core components of StoSignSGD and present a comprehensive ablation study to empirically validate our algorithmic design choices.
- Abstract(参考訳): SignSGDのような符号ベースの最適化アルゴリズムは、分散学習と大規模基盤モデルの訓練において、顕著な性能で大きな注目を集めている。
実験的な優位性にもかかわらず、SignSGDは、ReLU、max-pools、mix-of-expertsによる現代の機械学習においてユビキタスな非平滑な目的に基づいて分散することが知られている。
この基本的な制限を克服するために,不偏更新ステップを維持しながら手話演算子に構造確率を注入するアルゴリズムである \textbf{StoSignSGD} を提案する。
オンライン凸最適化では,StoSignSGD が SignSGD の非収束問題を厳密に解決し,下界に適合する鋭い収束率を達成する。
より困難な非凸な非滑らかな最適化のために、StoSignSGDが次元因子によって制限される最もよく知られた複雑性を改善することを証明し、事前定義を含む一般化された定常測度を導入する。
経験的に、StoSignSGDは様々な大規模言語モデル(LLM)訓練体制において、堅牢な安定性と優れた効率を示す。
特に、AdamWが破滅的に失敗する低精度FP8事前訓練では、StoSignSGDは非常に安定であり、確立されたベースラインに対して1.44$\times$から2.14$\times$スピードアップとなる。
さらに、数学的な推論タスクに7B LLMを微調整すると、StoSignSGDはAdamWとSignSGDの両方に対して大幅な性能向上をもたらす。
最後に、その成功を導くメカニズムを解明するために、任意の一般化最適化器を非バイアスの符号ベースに変換できる符号変換フレームワークを開発する。
このフレームワークを利用して、StoSignSGDのコアコンポーネントを分解し、アルゴリズム設計の選択を実証的に検証するための包括的なアブレーション研究を示す。
関連論文リスト
- Think Twice Before You Write -- an Entropy-based Decoding Strategy to Enhance LLM Reasoning [32.332197731504046]
デコード戦略は、大きな言語モデルの推論能力を形成する上で、中心的な役割を果たす。
グレディ復号やビームサーチといった従来の手法は、しばしばエラーの伝播に悩まされる。
本稿では,トークンレベルの適応性を世代に導入するエントロピー誘導復号化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-10T23:08:26Z) - The Power of Decaying Steps: Enhancing Attack Stability and Transferability for Sign-based Optimizers [9.020853139493239]
非収束性と不安定性の1つの原因は、非遅延的なステップサイズスケジューリングである、と我々は主張する。
そこで本研究では,信号ベース対角線における一律的なステップサイズ決定を強制する,新たな攻撃アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-02-22T08:37:06Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。
提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。
実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2025-06-11T06:59:17Z) - Leveraging Coordinate Momentum in SignSGD and Muon: Memory-Optimized Zero-Order [39.25335214877435]
ダウンストリームタスクに事前訓練されたモデルを適用するには、微調整大型言語モデル(LLM)が不可欠である。
従来の一階述語アルゴリズムは、モデルサイズであまりスケールしない、禁止的なメモリと計算コストを発生させる。
メモリと計算効率の代替としてゼロオーダー(ZO)最適化法を提案する。
論文 参考訳(メタデータ) (2025-06-04T20:27:17Z) - Benign Underfitting of Stochastic Gradient Descent [72.38051710389732]
本研究では,適切な学習データを得ることで,一般化性能を実現する「従来型」学習ルールとして,勾配降下度(SGD)がどの程度理解されるかを検討する。
類似現象が起こらない近縁な交換SGDを解析し、その集団リスクが実際に最適な速度で収束することを証明する。
論文 参考訳(メタデータ) (2022-02-27T13:25:01Z) - Revisiting and Advancing Fast Adversarial Training Through The Lens of
Bi-Level Optimization [60.72410937614299]
提案手法は,2レベルAT(FAST-BAT)と呼ばれる新しいアルゴリズムセットの設計と解析である。
FAST-BATは、グラデーションサインメソッドや明示的なロバスト正規化を呼ぶことなく、符号ベースの投射降下(PGD)攻撃を防御することができる。
論文 参考訳(メタデータ) (2021-12-23T06:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。