論文の概要: Sparsity-Aware Low-Rank Representation for Efficient Fine-Tuning of Large Language Models
- arxiv url: http://arxiv.org/abs/2601.16991v2
- Date: Wed, 28 Jan 2026 10:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.464338
- Title: Sparsity-Aware Low-Rank Representation for Efficient Fine-Tuning of Large Language Models
- Title(参考訳): 大規模言語モデルの効率的な微調整のためのスポーサリティを考慮した低ランク表現
- Authors: Longteng Zhang, Sen Wu, Shuai Hou, Zhengyu Qing, Zhuo Zheng, Danning Ke, Qihong Lin, Qiang Wang, Shaohuai Shi, Xiaowen Chu,
- Abstract要約: 低ランク適応(LoRA)は、重み付けを分解することでトレーニング可能なパラメータを減らすが、基礎となる重み付けは高いストレージと計算コストを課す。
Sparsity-Aware Low-Rank Representationは,スパースプルーニングによる低ランク適応を統一する新しい微調整パラダイムである。
- 参考スコア(独自算出の注目度): 19.288371639304504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting large pre-trained language models to downstream tasks often entails fine-tuning millions of parameters or deploying costly dense weight updates, which hinders their use in resource-constrained environments. Low-rank Adaptation (LoRA) reduces trainable parameters by factorizing weight updates, yet the underlying dense weights still impose high storage and computation costs. Magnitude-based pruning can yield sparse models but typically degrades LoRA's performance when applied naively. In this paper, we introduce SALR (Sparsity-Aware Low-Rank Representation), a novel fine-tuning paradigm that unifies low-rank adaptation with sparse pruning under a rigorous mean-squared-error framework. We prove that statically pruning only the frozen base weights minimizes the pruning error bound, and we recover the discarded residual information via a truncated-SVD low-rank adapter, which provably reduces per-entry MSE by a factor of $(1 - r/\min(d,k))$. To maximize hardware efficiency, we fuse multiple low-rank adapters into a single concatenated GEMM, and we adopt a bitmap-based encoding with a two-stage pipelined decoding + GEMM design to achieve true model compression and speedup. Empirically, SALR attains 50\% sparsity on various LLMs while matching the performance of LoRA on GSM8K and MMLU, reduces model size by $2\times$, and delivers up to a $1.7\times$ inference speedup.
- Abstract(参考訳): 大規模な事前学習された言語モデルを下流タスクに適応させるには、数百万のパラメータを微調整したり、コストのかかる重み付けの更新を行う必要があり、リソース制約のある環境での使用を妨げます。
低ランク適応(LoRA)は、重み付けを分解することでトレーニング可能なパラメータを減らすが、基礎となる重み付けは高いストレージと計算コストを課す。
マグニチュードベースのプルーニングはスパースモデルが得られるが、通常、鼻で適用するとLoRAの性能が低下する。
本稿では,厳密な平均二乗エラー枠組みの下でスパースプルーニングによる低ランク適応を統一する新しいファインチューニングパラダイムであるSALRを紹介する。
凍結したベースウェイトのみを静的にプルーニングすることは、プルーニングエラーバウンドを最小限に抑え、トルーニングされたSVDローランクアダプタを介して廃棄された残留情報を復元する。
ハードウェア効率を最大化するために、複数の低ランクアダプタを1つの連結GEMMに融合し、2段パイプラインデコード+GEMM設計によるビットマップ符号化を採用し、真のモデル圧縮と高速化を実現する。
経験的に、SALRは、GSM8KとMMLUのLoRAの性能にマッチしながら、様々なLLM上で50倍の間隔を実現し、モデルサイズを2\times$に減らし、最大1.7\times$推論スピードアップを提供する。
関連論文リスト
- ScaLoRA: Optimally Scaled Low-Rank Adaptation for Efficient High-Rank Fine-Tuning [32.55713482636133]
低ランク適応(LoRA)はこのコストを、低次元の部分空間に重み付けすることで効果的に削減する。
この貢献は、連続する低ランクインクリメントからのハイランクウェイト更新を徐々に蓄積することで、これらの制限を扱う。
再起動することなく効率よくシームレスな最適化を実現するために、この最適な選択は、元の低ランク行列の列を適切にスケーリングすることによって形成される。
論文 参考訳(メタデータ) (2025-10-27T19:59:46Z) - SDQ-LLM: Sigma-Delta Quantization for 1-bit LLMs of any size [5.229694155440675]
大規模言語モデル(LLM)は、計算とメモリの問題に直面する。
SDQ-LLM: Sigma-Delta Quantization for 1-bit LLMs of any size。
SDQ-LLMの特徴は、Over-Sampling Ratio (OSR) の連続層である。
論文 参考訳(メタデータ) (2025-09-27T14:49:58Z) - Drag-and-Drop LLMs: Zero-Shot Prompt-to-Weights [75.83625828306839]
textbfDrag-and-Drop LLMs (textitDnD)は、未ラベルのタスクプロンプトをLoRAの重み更新に直接マッピングすることで、タスク単位のトレーニングを廃止する。
ライトウェイトテキストエンコーダは、各プロンプトバッチを条件埋め込みに蒸留し、カスケードされた超畳み込みデコーダによって全LORA行列に変換する。
論文 参考訳(メタデータ) (2025-06-19T15:38:21Z) - Dynamic Low-Rank Sparse Adaptation for Large Language Models [54.1231638555233]
Low-rank Sparse Adaptation (LoSA)は、低ランク適応をsparse LLM sparsityにシームレスに統合する新しい手法である。
LoSAは、微調整中に対応するスパース重みに基づいてLoRA結果を動的に分散する。
LoSAは、追加の推論負荷を伴わずに、スパースLSMの有効性を数時間で効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-02-20T18:37:32Z) - Replay-Free Continual Low-Rank Adaptation with Dynamic Memory [62.85596937435928]
我々は、事前学習された視覚変換器(ViT)が、時間とともに新しい下流タスクを逐次微調整できる連続学習を再考する。
近年の研究では、CL技術とパラメータ効率の良い微調整の交差が強調されている。
DualLoRA (Dual Low-Rank Adaptation) と呼ばれる新しいPEFT-CL法を提案する。
論文 参考訳(メタデータ) (2024-11-01T14:28:39Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - PAT: Pruning-Aware Tuning for Large Language Models [19.622152991641045]
大規模言語モデルは言語タスク、特に事前訓練後の教師付き微調整において優れている。
伝統的なポストホットプルーニングは、しばしばパフォーマンスを著しく損なう。
モデル冗長性を排除するために,Pruning-Aware Tuning(PAT)パラダイムを提案する。
論文 参考訳(メタデータ) (2024-08-27T01:04:14Z) - Structured Unrestricted-Rank Matrices for Parameter Efficient Fine-tuning [38.80020737321214]
構造化非制限ランク行列(SURM)に基づく効率的なパラメータ微調整(PEFT)のためのフレームワークを提案する。
SURMは、LoRAの低ランク行列を置換しながら、様々な画像分類タスクにおいて5-7%の精度向上を実現している。
また、GLUEベンチマークでは、アダプタのパラメータ数を最大12倍に削減する(ほぼ品質が低下する)。
論文 参考訳(メタデータ) (2024-06-25T17:26:05Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。