論文の概要: SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity
- arxiv url: http://arxiv.org/abs/2506.16500v1
- Date: Thu, 19 Jun 2025 17:53:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.200335
- Title: SparseLoRA: Accelerating LLM Fine-Tuning with Contextual Sparsity
- Title(参考訳): SparseLoRA: コンテキスト空間によるLDMファインチューニングの高速化
- Authors: Samir Khaki, Xiuyu Li, Junxian Guo, Ligeng Zhu, Chenfeng Xu, Konstantinos N. Plataniotis, Amir Yazdanbakhsh, Kurt Keutzer, Song Han, Zhijian Liu,
- Abstract要約: SparseLoRAは,コンテキスト空間の空間的分散によって微調整を高速化する手法である。
SparseLoRAは計算コストを最大2.2倍、測定速度を最大1.6倍に削減する。
- 参考スコア(独自算出の注目度): 52.88892280536302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning LLMs is both computationally and memory-intensive. While parameter-efficient fine-tuning methods, such as QLoRA and DoRA, reduce the number of trainable parameters and lower memory usage, they do not decrease computational cost. In some cases, they may even slow down fine-tuning. In this paper, we introduce SparseLoRA, a method that accelerates LLM fine-tuning through contextual sparsity. We propose a lightweight, training-free SVD sparsity estimator that dynamically selects a sparse subset of weights for loss and gradient computation. Also, we systematically analyze and address sensitivity across layers, tokens, and training steps. Our experimental results show that SparseLoRA reduces computational cost by up to 2.2 times and a measured speedup of up to 1.6 times while maintaining accuracy across various downstream tasks, including commonsense and arithmetic reasoning, code generation, and instruction following.
- Abstract(参考訳): 微調整LDMは計算量とメモリ集約性の両方である。
QLoRAやDoRAのようなパラメータ効率のよい微調整手法は、トレーニング可能なパラメータの数を減らし、メモリ使用量を減らすが、計算コストは削減しない。
場合によっては微調整を遅くすることもある。
本稿では,LLMの微調整を文脈空間空間で高速化するSparseLoRAを提案する。
本稿では,減量と勾配計算のために,軽量でトレーニング不要な重みのスパース部分集合を動的に選択するSVD空間性推定器を提案する。
また、レイヤー、トークン、トレーニングステップ間の感度を体系的に分析し、対処する。
実験の結果,SparseLoRAは計算コストを最大2.2倍に削減し,最大1.6倍の高速化を実現した。
関連論文リスト
- Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights [75.83625828306839]
textbfDrag-and-Drop LLMs (textitDnD)は、未ラベルのタスクプロンプトをLoRAの重み更新に直接マッピングすることで、タスク単位のトレーニングを廃止する。
ライトウェイトテキストエンコーダは、各プロンプトバッチを条件埋め込みに蒸留し、カスケードされた超畳み込みデコーダによって全LORA行列に変換する。
論文 参考訳(メタデータ) (2025-06-19T15:38:21Z) - Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization [13.622268474310918]
ShiftAddLLMは大規模言語モデルの効率的な乗算自由モデルである。
5.6および22.7ポイントのパープレキシティ改善を同等または低いレイテンシで達成する。
5つのLLMファミリーと8つのタスクの実験は、ShiftAddLLMの有効性を一貫して検証している。
論文 参考訳(メタデータ) (2024-06-10T02:47:55Z) - BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。
LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文 参考訳(メタデータ) (2024-02-06T09:26:34Z) - Run LoRA Run: Faster and Lighter LoRA Implementations [50.347242693025336]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。
本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。
実験は、言語モデリングネットワーク上で最大28%のスピードアップを示す。
論文 参考訳(メタデータ) (2023-12-06T10:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。