Fugu-MT 論文翻訳(概要): PLUMAGE: Probabilistic Low rank Unbiased Min Variance Gradient Estimator for Efficient Large Model Training

論文の概要: PLUMAGE: Probabilistic Low rank Unbiased Min Variance Gradient Estimator for Efficient Large Model Training

arxiv url: http://arxiv.org/abs/2505.18313v1
Date: Fri, 23 May 2025 19:17:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:42.336895
Title: PLUMAGE: Probabilistic Low rank Unbiased Min Variance Gradient Estimator for Efficient Large Model Training
Title（参考訳）: PLUMAGE:高効率大モデルトレーニングのための確率的低位偏差分数勾配推定器
Authors: Matan Haroush, Daniel Soudry,
Abstract要約: アクセラレータのメモリとネットワークの制約は、大きな言語モデルをトレーニングする際の主要なボトルネックとして現れている。 PLUMAGE: Probabilistic Low rank Unbiased Minimum v Ariance Gradient Estorを提案する。 PLUMAGEは,モデル全体で平均33%,GLUEベンチマークで平均28%,GaloREと同様の計算量およびメモリフットプリントで平均33%の事前トレーニング評価損失に対して,フルランク最適化のギャップを縮めることを実証的に実証した。
参考スコア（独自算出の注目度）: 21.695928776150808
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Accelerator memory and networking constraints have emerged as dominant bottlenecks when training large language models LLMs with billions of parameters. Existing low rank gradient estimators such as GaLoRE and FLORA compress gradients and optimizer tensors by projecting weight gradients onto a rank r subspace, enabling LLM training on consumer hardware. Yet, these methods are either biased or subject to high estimator variance. Moreover, the optimizer state based on the first and second moments estimates expressed in the previous subspace becomes misaligned whenever the projection is updated, leading to instabilities during training. We propose PLUMAGE: Probabilistic Low rank Unbiased Minimum vAriance Gradient Estimator. PLUMAGE is a drop in replacement for existing low rank gradient estimators. It does not introduce new hyperparameters beyond the chosen rank r and the update interval. In addition, we resolve optimizer state misalignment issues to prevent spurious weight updates and enhance training stability. We empirically demonstrate that PLUMAGE shrinks the full rank optimization's gap over the pre training evaluation loss by 33% on average across models and the average training loss across the GLUE benchmark by 28% within a similar computational and memory footprint as GaloRE.
Abstract（参考訳）: アクセラレータのメモリとネットワークの制約は、数十億のパラメータでLLMをトレーニングする際の主要なボトルネックとして現れている。 GaLoRE や FLORA などの既存の低階勾配推定器は、重み勾配をランク r の部分空間に投影することで、コンシューマハードウェア上で LLM トレーニングを可能にする。しかし、これらの手法は偏りがあるか、高い推定値のばらつきを受ける。さらに、前回のサブスペースで表現された第1および第2のモーメント推定に基づくオプティマイザ状態は、プロジェクションが更新されるたびに不整合となり、トレーニング中に不安定となる。 PLUMAGE: Probabilistic Low rank Unbiased Minimum vAriance Gradient Estimatorを提案する。 PLUMAGEは、既存の低階勾配推定器の代替となる。選択されたランクrと更新間隔を超えて、新しいハイパーパラメータを導入することはない。さらに,重量の急激な更新を防止し,トレーニング安定性を向上させるため,最適化状態の不整合問題を解消する。 PLUMAGEは,モデル全体で平均33%,GLUEベンチマークで平均28%,GaloREと同様の計算量およびメモリフットプリントで平均33%の事前トレーニング評価損失に対して,フルランク最適化のギャップを縮めることを実証的に実証した。

関連論文リスト

SubTrack++ : Gradient Subspace Tracking for Scalable LLM Training [6.057289837472806]
大規模言語モデル(LLM)のトレーニングは、大量のパラメータと状態のオーバーヘッドのため、リソース集約性が高い。本稿では,Glassmann的勾配部分空間追跡とプロジェクション認識を組み合わせたSubTrack++を提案する。我々はグラスマン幾何学と最低評価損失を利用してSOTA収束を実証する。
論文参考訳（メタデータ） (2025-02-03T18:13:52Z)
The Journey Matters: Average Parameter Count over Pre-training Unifies Sparse and Dense Scaling Laws [51.608402959163925]
本稿では,大規模言語モデルに対する最適スパース事前学習構成の体系的検討を行う。総トレーニング計算の25%でプルーニングを開始し、75%で終了すると、ほぼ最適の最終評価損失が得られることがわかった。本稿では,事前学習よりも平均パラメータ数を使用するように,チンチラスケーリング法を修正した新しいスケーリング法を提案する。
論文参考訳（メタデータ） (2025-01-21T20:23:22Z)
AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文参考訳（メタデータ） (2024-10-23T13:53:26Z)
Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [63.10833446782114]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。 Zeroth-order (ZO) 最適化手法はメモリ効率の良い代替手段を提供する。本稿では,高次元摂動によって生じる課題に対処するために,部分空間ゼロ次最適化を提案する。
論文参考訳（メタデータ） (2024-10-11T17:01:43Z)
Fira: Can We Achieve Full-rank Training of LLMs Under Low-rank Constraint? [40.94505326255136]
低ランクトレーニングは、大規模言語モデルのトレーニングにおいて、メモリ使用量を減らすための有望なアプローチとして登場した。本研究では,この目標を達成するための最初の試みとして,Firaと呼ばれるLLM用のプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。 FiraはLoRAとGaLoreのどちらよりも優れており、フルランクトレーニングに匹敵する、あるいはそれ以上のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-10-02T14:58:27Z)
InRank: Incremental Low-Rank Learning [85.6380047359139]
勾配に基づくトレーニングは、トレーニング中のランクの段階的な増加を通じて、ニューラルネットワークを低ランクのソリューションに向けて暗黙的に正規化する。既存のトレーニングアルゴリズムでは、計算効率を向上させるために、ローランクな特性を活用できない。 InRank(Incremental Low-Rank Learning)は,低ランク行列として累積重み更新を明示的に表現する学習アルゴリズムである。
論文参考訳（メタデータ） (2023-06-20T03:03:04Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Gradient Estimation for Binary Latent Variables via Gradient Variance Clipping [6.234350105794441]
勾配推定はしばしば、離散潜在変数を持つ生成モデルに適合するために必要である。 DisARMや他の推定器は、パラメータ空間の境界付近でばらつきを爆発させる可能性がある。パラメータ空間の境界における分散を小さくする勾配推定器 textitbitflip-1 を提案する。
論文参考訳（メタデータ） (2022-08-12T05:37:52Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)
TRP: Trained Rank Pruning for Efficient Deep Neural Networks [69.06699632822514]
低位近似とトレーニングを交互に行うTrated Rank Pruning (TRP)を提案する。サブ段階降下により最適化された核正則化を利用して、TRPの低位化をさらに促進する。 TRPトレーニングネットワークは本質的に低ランク構造であり、無視可能な性能損失と近似される。
論文参考訳（メタデータ） (2020-04-30T03:37:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。