論文の概要: Memory-Efficient Fine-Tuning via Low-Rank Activation Compression
- arxiv url: http://arxiv.org/abs/2509.23472v1
- Date: Sat, 27 Sep 2025 19:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.248993
- Title: Memory-Efficient Fine-Tuning via Low-Rank Activation Compression
- Title(参考訳): 低域活性化圧縮によるメモリ効率の良いファインチューニング
- Authors: Jiang-Xin Shi, Wen-Da Wei, Jin-Fei Qi, Xuanyu Chen, Tong Wei, Yu-Feng Li,
- Abstract要約: Low-Rank Activation Compression (LoRAct) はメモリ効率の良い微調整方式である。
LoRActは広く採用されているLoRA法と比較して、アクティベーションメモリを約80%削減する。
- 参考スコア(独自算出の注目度): 16.44044624606008
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The parameter-efficient fine-tuning paradigm has garnered significant attention with the advancement of foundation models. Although numerous methods have been proposed to reduce the number of trainable parameters, their substantial memory overhead remains a critical bottleneck that hinders practical deployment. In this paper, we observe that model activations constitute a major source of memory consumption, especially under large batch sizes and long context lengths; however, the rank of the activations remains consistently low. Motivated by this insight, we propose a memory-efficient fine-tuning approach Low-Rank Activation Compression (LoRAct). Unlike prior work, LoRAct provides a more flexible and versatile compressing strategy that can be applied online during the forward pass without the need for any calibration data. Moreover, LoRAct incorporates a novel sampling-based orthogonal decomposition algorithm specifically designed for low-rank matrices, offering improved computational efficiency and a tighter error bound compared to the widely used RSVD. Experiments on both vision and language tasks demonstrate the effectiveness of LoRAct. Notably, LoRAct further reduces activation memory by approximately 80% in comparison with the widely adopted LoRA method, while maintaining competitive performance. The source code is available at https://github.com/shijxcs/meft.
- Abstract(参考訳): パラメータ効率のよい微調整パラダイムは基礎モデルの進歩によって大きな注目を集めている。
トレーニング可能なパラメータの数を減らすために多くの方法が提案されているが、そのメモリオーバーヘッドは、実用的なデプロイメントを妨げる重要なボトルネックのままである。
本稿では, モデルアクティベーションが, 特に大きなバッチサイズと長いコンテキスト長において, メモリ消費の主要な源となっていることを観察するが, アクティベーションのランクは一貫して低いままである。
そこで本研究では, メモリ効率のよい微調整手法であるLo-Rank Activation Compression (LoRAct)を提案する。
以前の作業とは異なり、LoRActはよりフレキシブルで汎用的な圧縮戦略を提供しており、キャリブレーションデータを必要とせずに前方通過中にオンラインで適用することができる。
さらに、LoRActは、低ランク行列用に特別に設計されたサンプリングベースの新しい直交分解アルゴリズムを取り入れており、広く使われているRSVDと比較して計算効率が向上し、より厳密なエラーをもたらす。
視覚と言語の両方の実験は、LoRActの有効性を示している。
特に、LoRActは、競争性能を維持しながら、広く採用されているLoRA法と比較して、アクティベーションメモリを約80%削減する。
ソースコードはhttps://github.com/shijxcs/meft.comから入手できる。
関連論文リスト
- CR-Net: Scaling Parameter-Efficient Training with Cross-Layer Low-Rank Structure [8.92064131103945]
層間活性化残差が低ランク特性を持つという発見に触発された,CR-Net は革新的なフレームワークである。
CR-Netは最先端の低ランクフレームワークを一貫して上回り、計算資源が少なく、メモリも少ない。
論文 参考訳(メタデータ) (2025-09-23T13:43:02Z) - Low-rank Momentum Factorization for Memory Efficient Training [13.464518325870444]
Momentum Factorized (MoFaSGD) は、1次運動量の動的に更新された低ランクSVD表現を維持している。
大規模な言語モデルベンチマークにおけるMoFaSGDの有効性を実証し、メモリ削減(例えばLoRA)と性能の競合的なトレードオフを実現する。
論文 参考訳(メタデータ) (2025-07-10T18:04:52Z) - LoRS: Efficient Low-Rank Adaptation for Sparse Large Language Model [21.98687961440789]
既存のローランク適応法 (LoRA) は、スパース大言語モデル (LLM) においてスパーシティを維持できないため、課題に直面している。
近年の研究では、LoRAテクニックをマスク機構を追加して拡張することで、空間性を維持する手法が導入されている。
LLMを微調整する際のメモリ効率と計算効率を両立させる革新的な手法であるLoRSを導入する。
論文 参考訳(メタデータ) (2025-01-15T05:07:06Z) - Enhancing Zeroth-order Fine-tuning for Language Models with Low-rank Structures [21.18741772731095]
ゼロ階数(ZO)アルゴリズムは、関数値の有限差を用いて勾配を近似することで、有望な代替手段を提供する。
既存のZO法は、LLM微調整で一般的な低ランク勾配構造を捉えるのに苦労し、準最適性能をもたらす。
本稿では,LLMにおけるこの構造を効果的に捕捉する低ランクZOアルゴリズム(LOZO)を提案する。
論文 参考訳(メタデータ) (2024-10-10T08:10:53Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Flat-LoRA: Low-Rank Adaptation over a Flat Loss Landscape [52.98187034726091]
フルパラメータ空間の平坦領域に位置する低ランク適応を同定することを目的としたFlat-LoRAを提案する。
また、Flat-LoRAはドメイン内とドメイン外の両方の一般化を改善していることを示す。
論文 参考訳(メタデータ) (2024-09-22T11:24:10Z) - ThinK: Thinner Key Cache by Query-Driven Pruning [63.13363917871414]
大規模言語モデル(LLM)は自然言語処理の分野に革命をもたらし、様々なアプリケーションで前例のない性能を達成した。
本稿では,KVキャッシュのメモリ消費の非効率性に対処する長文シナリオに焦点を当てた。
我々は,最小のチャネルを選択的に切断しながら,注目重量損失を最小限に抑える新しいクエリ依存型KVキャッシュプルーニング手法であるThinKを提案する。
論文 参考訳(メタデータ) (2024-07-30T17:59:08Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation [29.139579820699495]
この研究は、活性化関数と層正規化の観点から微調整におけるメモリオーバーヘッドを低減することを目的としている。
提案手法をバックプロパゲーショントレーニングに適用し,GELUおよびSiLU活性化関数のメモリ効率の代替を導出する。
さらに、メモリ共有バックプロパゲーション戦略を導入し、アクティベーションメモリを2つの隣接層で共有できるようにする。
論文 参考訳(メタデータ) (2024-06-24T03:09:15Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。