論文の概要: Subspace Optimization for Large Language Models with Convergence Guarantees
- arxiv url: http://arxiv.org/abs/2410.11289v1
- Date: Tue, 15 Oct 2024 05:16:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:00:42.929111
- Title: Subspace Optimization for Large Language Models with Convergence Guarantees
- Title(参考訳): 収束保証付き大規模言語モデルの部分空間最適化
- Authors: Yutong He, Pengrui Li, Yipeng Hu, Chuyan Chen, Kun Yuan,
- Abstract要約: GoLoreは、標準的なバッチサイズであっても設定に収束する、GaLoreの新たな変種です。
我々の収束解析は他のスパース部分空間最適化アルゴリズムにも容易に拡張できる。
- 参考スコア(独自算出の注目度): 15.958761189087262
- License:
- Abstract: Subspace optimization algorithms, with GaLore (Zhao et al., 2024) as a representative method, have gained popularity for pre-training or fine-tuning large language models (LLMs) due to their memory efficiency. However, their convergence guarantees remain unclear, particularly in stochastic settings. In this paper, we unexpectedly discover that GaLore does not always converge to the optimal solution and substantiate this finding with an explicit counterexample. We then investigate the conditions under which GaLore can achieve convergence, demonstrating that it does so either in deterministic scenarios or when using a sufficiently large mini-batch size. More significantly, we introduce GoLore (Gradient random Low-rank projection), a novel variant of GaLore that provably converges in stochastic settings, even with standard batch sizes. Our convergence analysis can be readily extended to other sparse subspace optimization algorithms. Finally, we conduct numerical experiments to validate our theoretical results and empirically explore the proposed mechanisms. Codes are available at https://github.com/pkumelon/Golore.
- Abstract(参考訳): GaLore (Zhao et al , 2024) を代表的手法とする部分空間最適化アルゴリズムは, メモリ効率のため, 事前学習や微調整を行う大規模言語モデル (LLM) で人気を博している。
しかし、それらの収束保証は、特に確率的な環境では不明確である。
本稿では,GaLoreが必ずしも最適解に収束するとは限らないことを予期せず発見し,この発見を明示的な反例で裏付ける。
次に、GaLoreが収束を達成できる条件を調査し、決定論的シナリオか、あるいは十分に大きなミニバッチサイズを使用する場合のいずれにおいても、それが可能であることを実証する。
さらに、標準的なバッチサイズであっても確率的に収束するGaLoreの新しい変種であるGoLore(Gradient random Low-rank projection)を導入する。
我々の収束解析は他のスパース部分空間最適化アルゴリズムにも容易に拡張できる。
最後に,理論的結果を検証する数値実験を行い,提案手法を実証的に検討する。
コードはhttps://github.com/pkumelon/Golore.comで入手できる。
関連論文リスト
- Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients [86.40635601953446]
量子化と低ランク投影を組み合わせることでメモリ使用量を大幅に削減する新しい手法であるQ-Galoreを導入する。
本稿では,Q-Galoreがメモリ効率に優れた競合性能を実現することを実証する。
論文 参考訳(メタデータ) (2024-07-11T08:42:58Z) - Optimal Scaling for Locally Balanced Proposals in Discrete Spaces [65.14092237705476]
離散空間におけるMetropolis-Hastings (M-H) アルゴリズムの効率は、対象分布に依存しない受容率によって特徴づけられることを示す。
最適受容率の知識は、連続空間におけるステップサイズ制御と直接的に類似して、離散空間における提案分布の近傍サイズを自動的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-09-16T22:09:53Z) - Distributed Sketching for Randomized Optimization: Exact
Characterization, Concentration and Lower Bounds [54.51566432934556]
我々はヘシアンの形成が困難である問題に対する分散最適化法を検討する。
ランダム化されたスケッチを利用して、問題の次元を減らし、プライバシを保ち、非同期分散システムにおけるストラグラーレジリエンスを改善します。
論文 参考訳(メタデータ) (2022-03-18T05:49:13Z) - Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and
Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。
ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。
我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文 参考訳(メタデータ) (2021-10-20T02:25:25Z) - The Minimax Complexity of Distributed Optimization [0.0]
分散最適化に適用可能な古典的なオラクルフレームワークの拡張である「グラフオラクルモデル」を紹介します。
私は「間欠的コミュニケーション設定」の具体例に焦点をあてる
コンベックス設定におけるSGD(Local Descent)アルゴリズムの理論的特性を解析する。
論文 参考訳(メタデータ) (2021-09-01T15:18:33Z) - Sub-linear Regret Bounds for Bayesian Optimisation in Unknown Search
Spaces [63.22864716473051]
本稿では,反復により探索空間を拡大(およびシフト)する新しいBOアルゴリズムを提案する。
理論的には、どちらのアルゴリズムにおいても、累積的後悔は線形以下の速度で増大する。
論文 参考訳(メタデータ) (2020-09-05T14:24:40Z) - Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。
このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。
提案手法の順序の順序による時間収束を,総じて低減する。
論文 参考訳(メタデータ) (2020-05-21T20:59:11Z) - Linear-time inference for Gaussian Processes on one dimension [17.77516394591124]
本研究では,その線形スケーリング計算コストから,状態空間モデルが人気である1次元のサンプルデータについて検討する。
状態空間モデルは一般であり、任意の1次元ガウス過程を近似できるという予想の最初の一般的な証明を提供する。
LEGモデルで推論と学習を行う並列アルゴリズムを開発し、実データおよび合成データ上でアルゴリズムをテストし、数十億のサンプルを持つデータセットへのスケーリングを実証する。
論文 参考訳(メタデータ) (2020-03-11T23:20:13Z) - Adaptive Expansion Bayesian Optimization for Unbounded Global
Optimization [11.328577884408588]
本稿では,大域的最適度を必ずしも含まない初期探索空間のみを指定したベイズ最適化手法を提案する。
提案手法は,現在の最先端手法と同等以上の性能を示した。
論文 参考訳(メタデータ) (2020-01-12T21:48:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。