Fugu-MT 論文翻訳(概要): Optimal low-rank stochastic gradient estimation for LLM training

論文の概要: Optimal low-rank stochastic gradient estimation for LLM training

arxiv url: http://arxiv.org/abs/2603.20632v1
Date: Sat, 21 Mar 2026 04:03:32 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-24 19:11:39.004119
Title: Optimal low-rank stochastic gradient estimation for LLM training
Title（参考訳）: LLMトレーニングのための最適低ランク確率勾配推定
Authors: Zehao Li, Tao Ren, Zishi Zhang, Xi Chen, Yijie Peng,
Abstract要約: 大規模言語モデル(LLM)のトレーニングは、メモリ制約や勾配ノイズによってボトルネックとなることが多い。バイアスのない,メモリ効率の低い低ランク行列推定器を提案する。
参考スコア（独自算出の注目度）: 8.22982038180272
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language model (LLM) training is often bottlenecked by memory constraints and stochastic gradient noise in extremely high-dimensional parameter spaces. Motivated by empirical evidence that many LLM gradient matrices are effectively low-rank during training, we present an unbiased, memory-efficient, low-rank matrix estimator with the lowest variance that is applicable across common stochastic gradient estimation paradigms. The core idea is to project a high-dimensional stochastic gradient estimator onto a random low-dimensional subspace and lift it back, reducing memory while keeping the estimator unbiased and controlling mean-squared error via an optimally designed projection distribution, including Haar--Stiefel projections. The projection distribution is derived by solving a constrained functional optimization problem, yielding an optimal random projector that guides algorithm design. Empirically, the resulting low-rank gradient estimators deliver both practical memory savings and improved training behavior. In RoBERTa-large fine-tuning, our method attains the lowest peak GPU memory among compared methods (e.g., 3.83GB versus 16.7GB for full BP) while remaining competitive in accuracy; in autoregressive LLM pretraining (LLaMA-20M/60M/100M), our method outperforms the traditional methods, supporting the benefit of the proposed optimal projection strategy.
Abstract（参考訳）: 大規模言語モデル(LLM)のトレーニングは、非常に高次元のパラメータ空間におけるメモリ制約や確率勾配ノイズによってボトルネックとなることが多い。 LLM勾配行列がトレーニング中に効果的に低ランクであることの実証的証拠により、我々は、共通の確率的勾配推定パラダイムで適用可能な、最も低いばらつきを持つ、バイアスのない、メモリ効率の低い行列推定器を提案する。中心となる考え方は、ランダムな低次元部分空間に高次元確率勾配推定器を投影し、それを持ち帰り、Haar-Stiefelプロジェクションを含む最適に設計されたプロジェクション分布を介して、推定器をバイアスなく保ち、平均二乗誤差を制御しながらメモリを減少させることである。プロジェクション分布は制約付き関数最適化問題を解くことで導出され、アルゴリズム設計を導く最適なランダムプロジェクタが得られる。経験的に、結果として生じる低ランク勾配推定器は、実用的なメモリ節約とトレーニングの振る舞いを改善する。 RoBERTa-large fine-tuningでは,提案手法は比較手法(全BPでは3.83GB対16.7GB)の中で最小のピークGPUメモリを達成できるが,自動回帰LDM事前学習(LLaMA-20M/60M/100M)では従来の手法よりも優れており,提案手法の利点が期待できる。

関連論文リスト

Prior-Informed Zeroth-Order Optimization with Adaptive Direction Alignment for Memory-Efficient LLM Fine-Tuning [4.278794376089146]
本稿では,事前インフォームド摂動を組み込んだプラグアンドプレイ手法を提案する。本手法は標準ZO法と比較して収束を著しく加速する。勾配推定器が真の勾配方向とより強く一致することを証明する。
論文参考訳（メタデータ） (2026-01-08T08:27:15Z)
Low-Rank Curvature for Zeroth-Order Optimization in LLM Fine-Tuning [8.349781300731225]
LOREN (curvature-aware zeroth-order (ZO) optimization method for fine-tuning large language model (LLMs)) を紹介する。乱摂動を用いた有限差分による勾配推定を行う既存のZO法は、しばしば高いばらつきと準最適探索方向に悩まされる。 i) 勾配推定のための異方性摂動分布を適応的に推定し, (ii) 低ランクブロック対角前処理器で曲率を計測し, (iii) ばらつきを抑えるためにREINFORCEスタンス・ワン・アウト(RLOO) 勾配推定器を適用することにより, これらの課題に対処する。
論文参考訳（メタデータ） (2025-11-11T08:34:09Z)
Towards Fast LLM Fine-tuning through Zeroth-Order Optimization with Projected Gradient-Aligned Perturbations [23.409093103129706]
ゼロ階数最適化(ZO)を用いた細調整大型言語モデル(LLM)が,従来の勾配法に代わる有望な代替手段として登場した。既存のZO法は勾配推定のばらつきに悩まされ、大規模なモデルでは収束が遅く、最適以下の性能が低下する。本稿では,P-GAPを提案する。
論文参考訳（メタデータ） (2025-10-21T02:19:11Z)
Unbiased Gradient Low-Rank Projection [32.57081286181632]
一般的な戦略としては、GaLoreが代表的な例として、投射された状態のみを格納する低ランク射影の勾配がある。本稿では,低ランクプロジェクション機構のデバイアス化のためのレイヤワイズサンプリング手法について検討する。パラダイムのインスタンス化により、GaLoreのメカニズムとMuonアルゴリズムに基づいて構築された、新しく偏りのない低ランク最適化手法が生まれる。
論文参考訳（メタデータ） (2025-10-20T17:59:25Z)
From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。 LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文参考訳（メタデータ） (2025-10-06T17:58:01Z)
Breaking the Frozen Subspace: Importance Sampling for Low-Rank Optimization in LLM Pretraining [43.39070237124361]
低ランク最適化は、大きな言語モデルのメモリ効率のトレーニングを可能にするための有望なアプローチである。これらの手法の鍵となる課題は、効果的な軌道を確保するために適切な部分空間を選択することである。本稿では,LLMプリトレーニングにおける低ランク最適化のための重要サンプリングについて提案する。
論文参考訳（メタデータ） (2025-02-09T06:30:19Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
Differentially Private Optimization with Sparse Gradients [60.853074897282625]
微分プライベート(DP)最適化問題を個人勾配の空間性の下で検討する。これに基づいて、スパース勾配の凸最適化にほぼ最適な速度で純粋および近似DPアルゴリズムを得る。
論文参考訳（メタデータ） (2024-04-16T20:01:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。