論文の概要: A Memory Efficient Randomized Subspace Optimization Method for Training Large Language Models
- arxiv url: http://arxiv.org/abs/2502.07222v1
- Date: Tue, 11 Feb 2025 03:32:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:07:02.826659
- Title: A Memory Efficient Randomized Subspace Optimization Method for Training Large Language Models
- Title(参考訳): 大規模言語モデルの学習のためのメモリ効率の良いランダム化部分空間最適化法
- Authors: Yiming Chen, Yuan Zhang, Yin Liu, Kun Yuan, Zaiwen Wen,
- Abstract要約: 本稿では,事前学習および微調整を行う大規模言語モデルのためのランダム化部分空間最適化フレームワークを提案する。
提案手法は,高次元学習問題を一連の低次元サブプロブレムに分解する。
この構造的次元減少により,アクティベーションと状態の両方のメモリ使用量を同時に削減できる。
- 参考スコア(独自算出の注目度): 22.725326215887435
- License:
- Abstract: The memory challenges associated with training Large Language Models (LLMs) have become a critical concern, particularly when using the Adam optimizer. To address this issue, numerous memory-efficient techniques have been proposed, with GaLore standing out as a notable example designed to reduce the memory footprint of optimizer states. However, these approaches do not alleviate the memory burden imposed by activations, rendering them unsuitable for scenarios involving long context sequences or large mini-batches. Moreover, their convergence properties are still not well-understood in the literature. In this work, we introduce a Randomized Subspace Optimization framework for pre-training and fine-tuning LLMs. Our approach decomposes the high-dimensional training problem into a series of lower-dimensional subproblems. At each iteration, a random subspace is selected, and the parameters within that subspace are optimized. This structured reduction in dimensionality allows our method to simultaneously reduce memory usage for both activations and optimizer states. We establish comprehensive convergence guarantees and derive rates for various scenarios, accommodating different optimization strategies to solve the subproblems. Extensive experiments validate the superior memory and communication efficiency of our method, achieving performance comparable to GaLore and Adam.
- Abstract(参考訳): LLM(Large Language Models)のトレーニングに関連するメモリ課題は、特にAdamオプティマイザを使用する場合、重要な問題となっている。
この問題に対処するために、GaLoreはオプティマイザ状態のメモリフットプリントを減らすために設計された注目すべき例として、多くのメモリ効率の手法が提案されている。
しかし、これらのアプローチはアクティベーションによって課されるメモリ負担を軽減するものではなく、長いコンテキストシーケンスや大きなミニバッチを含むシナリオには適さない。
さらに、それらの収束性は文献ではよく理解されていない。
本研究では,LLMの事前学習と微調整を行うためのランダム化部分空間最適化フレームワークを提案する。
提案手法は,高次元学習問題を一連の低次元サブプロブレムに分解する。
各イテレーションでランダムなサブスペースが選択され、そのサブスペース内のパラメータが最適化される。
この構造的次元削減により,アクティベーション状態とオプティマイザ状態の両方のメモリ使用量を同時に削減できる。
我々は、様々なシナリオに対する総合収束保証と導出率を確立し、サブプロブレムを解決するために異なる最適化戦略を調整した。
大規模な実験により,GaLoreやAdamに匹敵する性能を達成し,本手法の優れた記憶効率と通信効率を検証した。
関連論文リスト
- Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - Flat-LoRA: Low-Rank Adaption over a Flat Loss Landscape [52.98187034726091]
Low-Rank Adaptation (LoRA) は低ランク行列のみを最適化することでモデルを微調整する効率的な方法である。
ロラ空間に平坦に見える解は、全パラメータ空間に鋭い方向が存在し、一般化性能を損なう可能性がある。
フルパラメータ空間の平坦領域に位置する低ランク適応を求める効率的なアプローチであるFlat-LoRAを提案する。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - A Study of Optimizations for Fine-tuning Large Language Models [0.4561248066626745]
微調整された大きな言語モデルは、特定のアプリケーションに適応しようとするユーザの間では一般的な選択である。
しかし、これらのモデルの微調整は、ユーザがリソース予算、ランタイム、モデルサイズ、コンテキストの長さなど、いくつかの要因を調べる必要があるため、必要なタスクである。
特定の課題は、微調整がメモリ集約であり、処理可能なハードウェアメモリとトレーニングデータのコンテキスト長に制約を課すことである。
論文 参考訳(メタデータ) (2024-06-04T13:05:47Z) - Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。
HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。
トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文 参考訳(メタデータ) (2024-04-16T06:34:08Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Frustratingly Simple Memory Efficiency for Pre-trained Language Models
via Dynamic Embedding Pruning [42.652021176354644]
プレトレーニング言語モデル(PLM)のメモリフットプリントは、メモリ制限された設定でのデプロイメントを妨げる可能性がある。
本稿では, 組込み行列のメモリフットプリントを最小化するために, この発見を活用する, 単純かつ効果的な手法を提案する。
このアプローチは、幅広いモデルやタスクにわたるメモリ使用量を大幅に削減することを示している。
論文 参考訳(メタデータ) (2023-09-15T19:00:00Z) - CAME: Confidence-guided Adaptive Memory Efficient Optimization [20.009302737137787]
適応勾配法は大規模言語モデルの訓練において優れた性能を示した。
二次モーメント推定の維持には、メモリオーバーヘッドの増大を高いコストで維持する必要がある。
補助メモリ使用量の大幅な削減を実現するために、いくつかのメモリ効率が提案されているが、性能上のペナルティがある。
我々は,従来の適応手法のように高速収束,メモリ効率の低い2つの目標を同時に達成するために,CAMEを提案する。
論文 参考訳(メタデータ) (2023-07-05T06:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。