Fugu-MT 論文翻訳(概要): MLorc: Momentum Low-rank Compression for Large Language Model Adaptation

論文の概要: MLorc: Momentum Low-rank Compression for Large Language Model Adaptation

arxiv url: http://arxiv.org/abs/2506.01897v2
Date: Tue, 03 Jun 2025 03:59:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 01:42:09.330821
Title: MLorc: Momentum Low-rank Compression for Large Language Model Adaptation
Title（参考訳）: MLorc:大規模言語モデル適応のためのMomentum Low-rank Compression
Authors: Wei Shen, Zhang Yaxiang, Minhui Huang, Mengfan Xu, Jiawei Zhang, Cong Shen,
Abstract要約: 我々は、モメンタム低ランク圧縮(MLorc)と呼ばれるメモリ効率の訓練パラダイムを提案する。勾配ではなく運動量を直接圧縮して再構成することにより、MLorcは重み更新行列に固定ランク制約を課すことを避ける。実証的には、MLorcは、他のメモリ効率のトレーニング方法、マッチ、さらにはフル微調整のパフォーマンスを一貫して上回っている。
参考スコア（独自算出の注目度）: 18.63642841688227
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With increasing size of large language models (LLMs), full-parameter fine-tuning imposes substantial memory demands. To alleviate this, we propose a novel memory-efficient training paradigm called Momentum Low-rank compression (MLorc). By directly compressing and reconstructing momentum rather than gradients, MLorc avoids imposing a fixed-rank constraint on weight update matrices and better preserves the training dynamics of full-parameter fine-tuning, in contrast to existing low-rank approaches such as LoRA and GaLore. Empirically, MLorc consistently outperforms other memory-efficient training methods, matches or even exceeds the performance of full fine-tuning with a small rank (e.g., $r=4$), and generalizes well across different optimizers -- all while not compromising time or memory efficiency. Furthermore, we provide a theoretical guarantee for its convergence under reasonable assumptions.
Abstract（参考訳）: 大きな言語モデル(LLM)のサイズが大きくなるにつれて、フルパラメータの微調整はメモリの要求をかなり高める。そこで本研究では,モメンタム低ランク圧縮(MLorc)と呼ばれる新しいメモリ効率トレーニングパラダイムを提案する。勾配よりも運動量を直接圧縮して再構成することにより、MLorcは重量更新行列に固定ランクの制約を課すことを避け、LoRAやGaLoreのような既存の低ランクのアプローチとは対照的に、フルパラメータの微調整のトレーニングダイナミクスをよりよく維持する。実証的には、MLorcは他のメモリ効率のトレーニングメソッドを一貫して上回り、小さなランク(例えば$r=4$)でフル微調整のパフォーマンスを上回ります。さらに、合理的な仮定の下でその収束を理論的に保証する。

関連論文リスト

Low-rank Momentum Factorization for Memory Efficient Training [13.464518325870444]
Momentum Factorized (MoFaSGD) は、1次運動量の動的に更新された低ランクSVD表現を維持している。大規模な言語モデルベンチマークにおけるMoFaSGDの有効性を実証し、メモリ削減(例えばLoRA)と性能の競合的なトレードオフを実現する。
論文参考訳（メタデータ） (2025-07-10T18:04:52Z)
RAP: Runtime-Adaptive Pruning for LLM Inference [7.793451450945128]
我々は、強化学習(RL)によって駆動される弾力的な刈り取りフレームワークであるRAPを提案する。 RAPは、実際の実行におけるモデルパラメータとKV-cacheの進化率を追跡する。 RAPは最先端のベースラインよりも優れており、モデル重量とKVcacheを同時に検討するのは初めてである。
論文参考訳（メタデータ） (2025-05-22T06:12:42Z)
Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文参考訳（メタデータ） (2025-02-01T04:18:28Z)
Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文参考訳（メタデータ） (2024-11-04T04:58:20Z)
SLiM: One-shot Quantization and Sparsity with Low-rank Approximation for LLM Weight Compression [7.6131620435684875]
SLIMは新しいワンショット圧縮フレームワークで、ハードウェアフレンドリーな量子化、スパーシティ、低ランク近似を統合する。 SLIMはモデル精度を最大5.66%(LLaMA-2-7B)まで改善し、4ビットの重み量子化で2:4の間隔で計算し、従来の手法より優れている。
論文参考訳（メタデータ） (2024-10-12T18:36:07Z)
LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文参考訳（メタデータ） (2024-10-05T06:59:50Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
AdaZeta: Adaptive Zeroth-Order Tensor-Train Adaption for Memory-Efficient Large Language Models Fine-Tuning [22.950914612765494]
微調整型大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。メモリ効率のゼロ階数法(MeZO)は、前方通過のみを使用してLPMを微調整しようとするため、バックプロパゲーショングラフは不要である。本稿では,ZO手法の性能と収束性を改善するために,AdaZeta(Adaptive Zeroth-order-Train Adaption)フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-26T04:33:13Z)
AdaLomo: Low-memory Optimization with Adaptive Learning Rate [59.64965955386855]
大規模言語モデルに対する適応学習率(AdaLomo)を用いた低メモリ最適化を提案する。 AdaLomoはAdamWと同等の結果を得ると同時に、メモリ要件を大幅に削減し、大きな言語モデルをトレーニングするためのハードウェア障壁を低くする。
論文参考訳（メタデータ） (2023-10-16T09:04:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。