論文の概要: GRASS: Gradient-based Adaptive Layer-wise Importance Sampling for Memory-efficient Large Language Model Fine-tuning
- arxiv url: http://arxiv.org/abs/2604.07808v1
- Date: Thu, 09 Apr 2026 05:04:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.705007
- Title: GRASS: Gradient-based Adaptive Layer-wise Importance Sampling for Memory-efficient Large Language Model Fine-tuning
- Title(参考訳): GRASS: メモリ効率の高い大規模言語モデルファインチューニングのための、グラディエントベースのアダプティブ・レイヤ・ワイド・インシデンス・サンプリング
- Authors: Kaiyuan Tian, Yu Tang, Gongqingjian Jiang, Baihui Liu, Yifu Gao, Xialin Su, Linbo Qiao, Dongsheng Li,
- Abstract要約: レイヤワイドな微調整手法が代替として登場し、メモリ効率のトレーニングを可能にした。
勾配に基づく適応層ワイド・プライバシ・サンプリング・フレームワークを提案する。
我々は常に最先端の手法を上回り、平均精度は4.38ポイントまで向上し、メモリ使用量を19.97%削減した。
- 参考スコア(独自算出の注目度): 24.48876360953984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Full-parameter fine-tuning of large language models is constrained by substantial GPU memory requirements. Low-rank adaptation methods mitigate this challenge by updating only a subset of parameters. However, these approaches often limit model expressiveness and yield lower performance than full-parameter fine-tuning. Layer-wise fine-tuning methods have emerged as an alternative, enabling memory-efficient training through static layer importance sampling strategies. However, these methods overlook variations in layer importance across tasks and training stages, resulting in suboptimal performance on downstream tasks. To address these limitations, we propose GRASS, a gradient-based adaptive layer-wise importance sampling framework. GRASS utilizes mean gradient norms as a task-aware and training-stage-aware metric for estimating layer importance. Furthermore, GRASS adaptively adjusts layer sampling probabilities through an adaptive training strategy. We also introduce a layer-wise optimizer state offloading mechanism that overlaps computation and communication to further reduce memory usage while maintaining comparable training throughput. Extensive experiments across multiple models and benchmarks demonstrate that GRASS consistently outperforms state-of-the-art methods, achieving an average accuracy improvement of up to 4.38 points and reducing memory usage by up to 19.97\%.
- Abstract(参考訳): 大規模言語モデルのフルパラメータ細調整は、GPUメモリの要求によって制限される。
低ランク適応法はパラメータのサブセットだけを更新することでこの問題を軽減する。
しかしながら、これらのアプローチはモデル表現性を制限し、フルパラメータの微調整よりも性能を低下させることが多い。
レイヤワイズ・ファインチューニング(Layer-wise fine-tuning)メソッドが代替手段として登場し、静的なレイヤ重要度サンプリング戦略によるメモリ効率のトレーニングを可能にした。
しかし、これらの手法は、タスクやトレーニング段階におけるレイヤーの重要度の変化を見落とし、下流タスクにおける最適以下のパフォーマンスをもたらす。
これらの制約に対処するため、勾配に基づく適応層ワイドサンプリングフレームワークであるGRASSを提案する。
GRASSは、平均勾配ノルムをタスク認識およびトレーニングステージ認識指標として利用して、レイヤの重要性を推定する。
さらに、GRASSは適応的なトレーニング戦略により、層サンプリング確率を適応的に調整する。
また、計算処理と通信を重複させ、同等のトレーニングスループットを維持しながら、メモリ使用量をさらに削減するレイヤワイズ・オプティマイザ・ステート・オフロード機構を導入しました。
複数のモデルとベンチマークにわたる大規模な実験により、GRASSは最先端の手法を一貫して上回り、平均精度は4.38ポイントまで向上し、メモリ使用量を19.97倍に削減した。
関連論文リスト
- Backward-Friendly Optimization: Training Large Language Models with Approximate Gradients under Memory Constraints [14.20716202034732]
LLM(Large Language Models)の完全な微調整は、メモリ集約性で悪名高い。
GradLiteは、正確な勾配の要求を緩和する後方フレンドリーなソリューションである。
我々はGradLiteが有界な分散を伴う不偏推定を維持し、Adamに匹敵する収束率を保証することを示す。
論文 参考訳(メタデータ) (2025-10-26T00:50:12Z) - AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。
低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。
トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-23T13:53:26Z) - SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - AdAdaGrad: Adaptive Batch Size Schemes for Adaptive Gradient Methods [17.043034606088234]
本稿では,AdAdaGradのスカラー変種AdAdaGradNormについて紹介する。
また,画像分類実験を行い,提案手法のメリットを強調した。
論文 参考訳(メタデータ) (2024-02-17T07:49:50Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。
AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文 参考訳(メタデータ) (2023-10-16T09:04:28Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。