Fugu-MT 論文翻訳(概要): Subspace Optimization for Large Language Models with Convergence Guarantees

論文の概要: Subspace Optimization for Large Language Models with Convergence Guarantees

arxiv url: http://arxiv.org/abs/2410.11289v2
Date: Wed, 04 Jun 2025 06:11:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 16:24:48.744114
Title: Subspace Optimization for Large Language Models with Convergence Guarantees
Title（参考訳）: 収束保証付き大規模言語モデルの部分空間最適化
Authors: Yutong He, Pengrui Li, Yipeng Hu, Chuyan Chen, Kun Yuan,
Abstract要約: GaLore は最適解に必ずしも収束しないことを示す。 GoLoreは、標準的なバッチサイズでも収束する、GaLoreの新しい変種である。
参考スコア（独自算出の注目度）: 15.958761189087262
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Subspace optimization algorithms, such as GaLore (Zhao et al., 2024), have gained attention for pre-training and fine-tuning large language models (LLMs) due to their memory efficiency. However, their convergence guarantees remain unclear, particularly in stochastic settings. In this paper, we reveal that GaLore does not always converge to the optimal solution and provide an explicit counterexample to support this finding. We further explore the conditions under which GaLore achieves convergence, showing that it does so when either (i) a sufficiently large mini-batch size is used or (ii) the gradient noise is isotropic. More significantly, we introduce GoLore (Gradient random Low-rank projection), a novel variant of GaLore that provably converges in typical stochastic settings, even with standard batch sizes. Our convergence analysis extends naturally to other subspace optimization algorithms. Finally, we empirically validate our theoretical results and thoroughly test the proposed mechanisms. Codes are available at https://github.com/pkumelon/Golore.
Abstract（参考訳）: GaLore (Zhao et al , 2024) のような部分空間最適化アルゴリズムは、メモリ効率のために事前学習と微調整の大型言語モデル (LLM) に注目されている。しかし、それらの収束保証は、特に確率的な環境では不明確である。本稿では,GaLoreが必ずしも最適解に収束するとは限らないことを明らかにする。ガロアが収束を達成する条件をさらに探求し、どちらか一方が収束した場合にその条件が成立することを示す。一十分な大きさのミニバッチを使用するか、又は (ii)勾配雑音は等方性である。さらに、標準的なバッチサイズであっても、典型的な確率的設定で確実に収束するGaLoreの新たな変種であるGoLore(グラディエントランダムローランクプロジェクション)を導入する。我々の収束解析は他の部分空間最適化アルゴリズムに自然に拡張する。最後に,理論結果を実証的に検証し,提案したメカニズムを徹底的に検証する。コードはhttps://github.com/pkumelon/Golore.comで入手できる。

関連論文リスト

Leveraging Coordinate Momentum in SignSGD and Muon: Memory-Optimized Zero-Order [38.99428012275441]
ダウンストリームタスクに事前訓練されたモデルを適用するには、微調整大型言語モデル(LLM)が不可欠である。従来の一階述語アルゴリズムは、モデルサイズであまりスケールしない、禁止的なメモリと計算コストを発生させる。メモリと計算効率の代替としてゼロオーダー(ZO)最適化法を提案する。
論文参考訳（メタデータ） (2025-06-04T20:27:17Z)
Preconditioned Langevin Dynamics with Score-Based Generative Models for Infinite-Dimensional Linear Bayesian Inverse Problems [4.2223436389469144]
スコアベース生成モデル(SGM)によって駆動されるランゲヴィン力学は、関数空間内で直接的に定式化される。スコアの近似誤差に明示的に依存する誤差推定を初めて導いた。その結果、基底函数空間上のクルバック・リーブラー発散における大域収束のための十分条件が得られる。
論文参考訳（メタデータ） (2025-05-23T18:12:04Z)
Optimal Subspace Inference for the Laplace Approximation of Bayesian Neural Networks [0.0]
数学的に最適部分空間モデルをラプラス近似に基づくベイズ推定シナリオに導出する。実験により、最適の場合、1%未満のパラメータのごく一部は、完全なラプラス近似の信頼できる推定値を得るのに十分であることが示された。
論文参考訳（メタデータ） (2025-02-04T14:27:21Z)
Q-GaLore: Quantized GaLore with INT4 Projection and Layer-Adaptive Low-Rank Gradients [86.40635601953446]
量子化と低ランク投影を組み合わせることでメモリ使用量を大幅に削減する新しい手法であるQ-Galoreを導入する。本稿では,Q-Galoreがメモリ効率に優れた競合性能を実現することを実証する。
論文参考訳（メタデータ） (2024-07-11T08:42:58Z)
Faster Sampling via Stochastic Gradient Proximal Sampler [28.422547264326468]
非log-concave分布からのサンプリングのための近位サンプリング器 (SPS) について検討した。対象分布への収束性は,アルゴリズムの軌道が有界である限り保証可能であることを示す。我々は、Langevin dynamics(SGLD)とLangevin-MALAの2つの実装可能な変種を提供し、SPS-SGLDとSPS-MALAを生み出した。
論文参考訳（メタデータ） (2024-05-27T00:53:18Z)
Optimal Scaling for Locally Balanced Proposals in Discrete Spaces [65.14092237705476]
離散空間におけるMetropolis-Hastings (M-H) アルゴリズムの効率は、対象分布に依存しない受容率によって特徴づけられることを示す。最適受容率の知識は、連続空間におけるステップサイズ制御と直接的に類似して、離散空間における提案分布の近傍サイズを自動的に調整することを可能にする。
論文参考訳（メタデータ） (2022-09-16T22:09:53Z)
Distributed Sketching for Randomized Optimization: Exact Characterization, Concentration and Lower Bounds [54.51566432934556]
我々はヘシアンの形成が困難である問題に対する分散最適化法を検討する。ランダム化されたスケッチを利用して、問題の次元を減らし、プライバシを保ち、非同期分散システムにおけるストラグラーレジリエンスを改善します。
論文参考訳（メタデータ） (2022-03-18T05:49:13Z)
Minibatch vs Local SGD with Shuffling: Tight Convergence Bounds and Beyond [63.59034509960994]
シャッフルに基づく変種(ミニバッチと局所ランダムリシャッフル)について検討する。ポリアック・ロジャシエヴィチ条件を満たす滑らかな函数に対して、これらのシャッフル型不変量(英語版)(shuffling-based variants)がそれらの置換式よりも早く収束することを示す収束境界を得る。我々は, 同期シャッフル法と呼ばれるアルゴリズムの修正を提案し, ほぼ均一な条件下では, 下界よりも収束速度が速くなった。
論文参考訳（メタデータ） (2021-10-20T02:25:25Z)
The Minimax Complexity of Distributed Optimization [0.0]
分散最適化に適用可能な古典的なオラクルフレームワークの拡張である「グラフオラクルモデル」を紹介します。私は「間欠的コミュニケーション設定」の具体例に焦点をあてるコンベックス設定におけるSGD(Local Descent)アルゴリズムの理論的特性を解析する。
論文参考訳（メタデータ） (2021-09-01T15:18:33Z)
Sub-linear Regret Bounds for Bayesian Optimisation in Unknown Search Spaces [63.22864716473051]
本稿では,反復により探索空間を拡大(およびシフト)する新しいBOアルゴリズムを提案する。理論的には、どちらのアルゴリズムにおいても、累積的後悔は線形以下の速度で増大する。
論文参考訳（メタデータ） (2020-09-05T14:24:40Z)
Global Optimization of Gaussian processes [52.77024349608834]
少数のデータポイントで学習したガウス過程を訓練した空間定式化を提案する。このアプローチはまた、より小さく、計算的にもより安価なサブソルバを低いバウンディングに導く。提案手法の順序の順序による時間収束を,総じて低減する。
論文参考訳（メタデータ） (2020-05-21T20:59:11Z)
Linear-time inference for Gaussian Processes on one dimension [17.77516394591124]
本研究では,その線形スケーリング計算コストから,状態空間モデルが人気である1次元のサンプルデータについて検討する。状態空間モデルは一般であり、任意の1次元ガウス過程を近似できるという予想の最初の一般的な証明を提供する。 LEGモデルで推論と学習を行う並列アルゴリズムを開発し、実データおよび合成データ上でアルゴリズムをテストし、数十億のサンプルを持つデータセットへのスケーリングを実証する。
論文参考訳（メタデータ） (2020-03-11T23:20:13Z)
Adaptive Expansion Bayesian Optimization for Unbounded Global Optimization [11.328577884408588]
本稿では,大域的最適度を必ずしも含まない初期探索空間のみを指定したベイズ最適化手法を提案する。提案手法は,現在の最先端手法と同等以上の性能を示した。
論文参考訳（メタデータ） (2020-01-12T21:48:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。