論文の概要: Subspace Optimization for Large Language Models with Convergence Guarantees
- arxiv url: http://arxiv.org/abs/2410.11289v2
- Date: Wed, 04 Jun 2025 06:11:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 16:24:48.744114
- Title: Subspace Optimization for Large Language Models with Convergence Guarantees
- Title(参考訳): 収束保証付き大規模言語モデルの部分空間最適化
- Authors: Yutong He, Pengrui Li, Yipeng Hu, Chuyan Chen, Kun Yuan,
- Abstract要約: GaLore は最適解に必ずしも収束しないことを示す。
GoLoreは、標準的なバッチサイズでも収束する、GaLoreの新しい変種である。
- 参考スコア(独自算出の注目度): 15.958761189087262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subspace optimization algorithms, such as GaLore (Zhao et al., 2024), have gained attention for pre-training and fine-tuning large language models (LLMs) due to their memory efficiency. However, their convergence guarantees remain unclear, particularly in stochastic settings. In this paper, we reveal that GaLore does not always converge to the optimal solution and provide an explicit counterexample to support this finding. We further explore the conditions under which GaLore achieves convergence, showing that it does so when either (i) a sufficiently large mini-batch size is used or (ii) the gradient noise is isotropic. More significantly, we introduce GoLore (Gradient random Low-rank projection), a novel variant of GaLore that provably converges in typical stochastic settings, even with standard batch sizes. Our convergence analysis extends naturally to other subspace optimization algorithms. Finally, we empirically validate our theoretical results and thoroughly test the proposed mechanisms. Codes are available at https://github.com/pkumelon/Golore.
- Abstract(参考訳): GaLore (Zhao et al , 2024) のような部分空間最適化アルゴリズムは、メモリ効率のために事前学習と微調整の大型言語モデル (LLM) に注目されている。
しかし、それらの収束保証は、特に確率的な環境では不明確である。
本稿では,GaLoreが必ずしも最適解に収束するとは限らないことを明らかにする。
ガロアが収束を達成する条件をさらに探求し、どちらか一方が収束した場合にその条件が成立することを示す。
一 十分な大きさのミニバッチを使用するか、又は
(ii)勾配雑音は等方性である。
さらに、標準的なバッチサイズであっても、典型的な確率的設定で確実に収束するGaLoreの新たな変種であるGoLore(グラディエントランダムローランクプロジェクション)を導入する。
我々の収束解析は他の部分空間最適化アルゴリズムに自然に拡張する。
最後に,理論結果を実証的に検証し,提案したメカニズムを徹底的に検証する。
コードはhttps://github.com/pkumelon/Golore.comで入手できる。
関連論文リスト
- Optimal Subspace Inference for the Laplace Approximation of Bayesian Neural Networks [0.0]
数学的に最適部分空間モデルをラプラス近似に基づくベイズ推定シナリオに導出する。
実験により、最適の場合、1%未満のパラメータのごく一部は、完全なラプラス近似の信頼できる推定値を得るのに十分であることが示された。
論文 参考訳(メタデータ) (2025-02-04T14:27:21Z) - Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients [86.40635601953446]
量子化と低ランク投影を組み合わせることでメモリ使用量を大幅に削減する新しい手法であるQ-Galoreを導入する。
本稿では,Q-Galoreがメモリ効率に優れた競合性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-11T08:42:58Z) - Optimal Scaling for Locally Balanced Proposals in Discrete Spaces [65.14092237705476]
離散空間におけるMetropolis-Hastings (M-H) アルゴリズムの効率は、対象分布に依存しない受容率によって特徴づけられることを示す。
最適受容率の知識は、連続空間におけるステップサイズ制御と直接的に類似して、離散空間における提案分布の近傍サイズを自動的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-09-16T22:09:53Z) - Distributed Sketching for Randomized Optimization: Exact
Characterization, Concentration and Lower Bounds [54.51566432934556]
我々はヘシアンの形成が困難である問題に対する分散最適化法を検討する。
ランダム化されたスケッチを利用して、問題の次元を減らし、プライバシを保ち、非同期分散システムにおけるストラグラーレジリエンスを改善します。
論文 参考訳(メタデータ) (2022-03-18T05:49:13Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - The Minimax Complexity of Distributed Optimization [0.0]
分散最適化に適用可能な古典的なオラクルフレームワークの拡張である「グラフオラクルモデル」を紹介します。
私は「間欠的コミュニケーション設定」の具体例に焦点をあてる
コンベックス設定におけるSGD(Local Descent)アルゴリズムの理論的特性を解析する。
論文 参考訳(メタデータ) (2021-09-01T15:18:33Z) - Sub-linear Regret Bounds for Bayesian Optimisation in Unknown Search
Spaces [63.22864716473051]
本稿では,反復により探索空間を拡大(およびシフト)する新しいBOアルゴリズムを提案する。
理論的には、どちらのアルゴリズムにおいても、累積的後悔は線形以下の速度で増大する。
論文 参考訳(メタデータ) (2020-09-05T14:24:40Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z) - Linear-time inference for Gaussian Processes on one dimension [17.77516394591124]
本研究では,その線形スケーリング計算コストから,状態空間モデルが人気である1次元のサンプルデータについて検討する。
状態空間モデルは一般であり、任意の1次元ガウス過程を近似できるという予想の最初の一般的な証明を提供する。
LEGモデルで推論と学習を行う並列アルゴリズムを開発し、実データおよび合成データ上でアルゴリズムをテストし、数十億のサンプルを持つデータセットへのスケーリングを実証する。
論文 参考訳(メタデータ) (2020-03-11T23:20:13Z) - Adaptive Expansion Bayesian Optimization for Unbounded Global
Optimization [11.328577884408588]
本稿では,大域的最適度を必ずしも含まない初期探索空間のみを指定したベイズ最適化手法を提案する。
提案手法は,現在の最先端手法と同等以上の性能を示した。
論文 参考訳(メタデータ) (2020-01-12T21:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。