論文の概要: Beyond First-Order: Training LLMs with Stochastic Conjugate Subgradients and AdamW
- arxiv url: http://arxiv.org/abs/2507.01241v1
- Date: Tue, 01 Jul 2025 23:30:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.960465
- Title: Beyond First-Order: Training LLMs with Stochastic Conjugate Subgradients and AdamW
- Title(参考訳): 第一次を超えて:確率共役によるLLMの訓練とAdamW
- Authors: Di Zhang, Yihang Zhang,
- Abstract要約: 勾配に基づく降下(SGD)は、長い間、大きな言語モデル(LLM)の訓練の中心であった。
本稿では,LLMを学習するための適応サンプリングとともに,共役下次法を提案する。
- 参考スコア(独自算出の注目度): 2.028622227373579
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Stochastic gradient-based descent (SGD), have long been central to training large language models (LLMs). However, their effectiveness is increasingly being questioned, particularly in large-scale applications where empirical evidence suggests potential performance limitations. In response, this paper proposes a stochastic conjugate subgradient method together with adaptive sampling tailored specifically for training LLMs. The method not only achieves faster convergence per iteration but also demonstrates improved scalability compared to traditional SGD techniques. It leverages sample complexity analysis to adaptively choose the sample size, employs a stochastic conjugate subgradient approach to determine search directions and utilizing an AdamW-like algorithm to adaptively adjust step sizes. This approach preserves the key advantages of first-order methods while effectively addressing the nonconvexity and non-smoothness inherent in LLMs training. Additionally, we provide a detailed analysis of the advantage of the algorithm. Experimental results show that the proposed method not only maintains, but in many cases surpasses, the scalability of traditional SGD techniques, significantly enhancing both the speed and accuracy of the optimization process.
- Abstract(参考訳): 確率勾配に基づく降下(SGD)は、長い間、大規模言語モデル(LLM)の訓練の中心であった。
しかし、特に経験的証拠が潜在的な性能制限を示唆する大規模アプリケーションにおいて、それらの効果はますます疑問視されている。
そこで本研究では,LLMの学習に適した適応サンプリング法とともに,確率共役次数法を提案する。
この手法はイテレーション毎の収束を高速化するだけでなく,従来のSGD手法と比較して拡張性も向上する。
サンプルの複雑性分析を利用してサンプルサイズを適応的に選択し、探索方向を決定する確率共役次数的アプローチを採用し、ステップサイズを適応的に調整するAdamWライクなアルゴリズムを利用する。
このアプローチは、LLM訓練に固有の非凸性と非滑らか性に効果的に対処しながら、一階法の重要な利点を保っている。
さらに,アルゴリズムの利点を詳細に分析する。
実験の結果,提案手法は維持されるだけでなく,従来のSGD手法のスケーラビリティを克服し,最適化プロセスの高速化と精度の向上を図っている。
関連論文リスト
- Revisiting the Initial Steps in Adaptive Gradient Descent Optimization [6.468625143772815]
Adamのような適応的な勾配最適化手法は、さまざまな機械学習タスクにわたるディープニューラルネットワークのトレーニングで広く使われている。
これらの手法は、降下勾配 (SGD) と比較して最適下一般化に苦しむことが多く、不安定性を示す。
非ゼロ値で2階モーメント推定を初期化する。
論文 参考訳(メタデータ) (2024-12-03T04:28:14Z) - Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。
本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-04T01:47:37Z) - Adaptive pruning-based Newton's method for distributed learning [14.885388389215587]
本稿では,分散適応ニュートン学習(textttDANL)という,新規で効率的なアルゴリズムを提案する。
textttDANLは、利用可能なリソースに効率よく適応し、高い効率を維持しながら、線形収束率を達成する。
実験により、textttDANLは、効率的な通信と異なるデータセット間の強い性能で線形収束を実現することが示された。
論文 参考訳(メタデータ) (2023-08-20T04:01:30Z) - Stochastic Average Gradient : A Simple Empirical Investigation [0.0]
平均勾配 (SAG) は有限個の滑らかな関数の和を最適化する手法である。
SAGは、単純な玩具問題において、他のイテレーションよりも早く収束し、単純な機械学習問題において、他の多くのイテレーションよりも優れたパフォーマンスを発揮する。
また,運動量アルゴリズムとAdamを組み合わせたSAGを提案する。
論文 参考訳(メタデータ) (2023-07-27T17:34:26Z) - Scalable Bayesian Meta-Learning through Generalized Implicit Gradients [64.21628447579772]
Inlicit Bayesian Meta-learning (iBaML) 法は、学習可能な事前のスコープを広げるだけでなく、関連する不確実性も定量化する。
解析誤差境界は、明示的よりも一般化された暗黙的勾配の精度と効率を示すために確立される。
論文 参考訳(メタデータ) (2023-03-31T02:10:30Z) - Variational Linearized Laplace Approximation for Bayesian Deep Learning [11.22428369342346]
変分スパースガウス過程(GP)を用いた線形ラプラス近似(LLA)の近似法を提案する。
本手法はGPの2つのRKHSの定式化に基づいており、予測平均として元のDNNの出力を保持する。
効率のよい最適化が可能で、結果としてトレーニングデータセットのサイズのサブ線形トレーニング時間が短縮される。
論文 参考訳(メタデータ) (2023-02-24T10:32:30Z) - Faster Adaptive Federated Learning [84.38913517122619]
フェデレートラーニングは分散データの出現に伴って注目を集めている。
本稿では,クロスサイロFLにおけるモーメントに基づく分散低減手法に基づく適応アルゴリズム(FAFED)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:07:50Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z) - Adaptive Learning of the Optimal Batch Size of SGD [52.50880550357175]
本稿では,その繰り返しを通じて最適なバッチサイズを適応的に学習し,凸度と滑らかな関数を求める手法を提案する。
実験では、合成データと実データを用いて、ほぼ最適な振る舞いを示す。
我々は,本手法を分散実装に適したサンプリングを含む,文献上考慮されていないいくつかの新しいバッチ戦略に一般化する。
論文 参考訳(メタデータ) (2020-05-03T14:28:32Z) - Dynamic Scale Training for Object Detection [111.33112051962514]
本稿では,オブジェクト検出におけるスケール変動問題を軽減するために,動的スケールトレーニングパラダイム(DST)を提案する。
提案したDSTのスケール変動処理に対する有効性を示す実験結果を得た。
推論オーバーヘッドを導入せず、一般的な検出設定のための無料ランチとして機能する。
論文 参考訳(メタデータ) (2020-04-26T16:48:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。