論文の概要: D-QRELO: Training- and Data-Free Delta Compression for Large Language Models via Quantization and Residual Low-Rank Approximation
- arxiv url: http://arxiv.org/abs/2604.16940v1
- Date: Sat, 18 Apr 2026 09:52:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.250317
- Title: D-QRELO: Training- and Data-Free Delta Compression for Large Language Models via Quantization and Residual Low-Rank Approximation
- Title(参考訳): D-QRELO:量子化と残差低ランク近似による大規模言語モデルの訓練・データ自由デルタ圧縮
- Authors: Junlin Li, Shuangyong Song, Guodong Du, Ngai Wong, Xuebo Liu, Yongxiang Li, Min Zhang, Jing Li, Xuelong Li,
- Abstract要約: Supervised Fine-Tuning (SFT) はタスク固有の大規模言語モデル (LLM) の開発を加速するが、細調整モデルの増加によってメモリオーバーヘッドが大幅に増大する。
本稿ではDQRELO(Delta Compression via Quantization and Residual Low-Rank)を提案する。
粗い1ビットの量子化を組み合わせ、デルタの支配的な構造を捉える。
- 参考スコア(独自算出の注目度): 78.32916244416033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised Fine-Tuning (SFT) accelerates taskspecific large language models (LLMs) development, but the resulting proliferation of finetuned models incurs substantial memory overhead. Delta compression addresses this by retaining a single pre-trained LLM with multiple compressed delta weights. However, existing methods fail on models fine-tuned with largescale datasets. We find that larger SFT data scale amplifies delta parameter magnitude, singular values, and entropy, exacerbating compression errors. To tackle this, we propose DQRELO (Delta Compression via Quantization and Residual Low-Rank), a novel training- and data-free delta compression method. It combines coarse-grained one-bit quantization to capture the dominant structure of the delta, followed by compensated residual low-rank approximation to recover fine-grained details from the smaller residual error. Experiments on various LLMs spanning dense and MoE architectures across multiple domains under this challenging setting demonstrate that DQRELO outperforms existing methods. Moreover, we establish key design principles for delta compression through extensive empirical analysis, demonstrating how task difficulty, architecture, and layer positioning create predictable patterns that can guide optimal compression strategies in production systems.
- Abstract(参考訳): Supervised Fine-Tuning (SFT) はタスク固有の大規模言語モデル (LLM) の開発を加速するが、細調整モデルの増加によってメモリオーバーヘッドが大幅に増大する。
デルタ圧縮は、複数の圧縮デルタ重みを持つ1つの事前訓練LDMを保持することでこの問題に対処する。
しかし、既存の手法は大規模なデータセットで微調整されたモデルでは失敗する。
より大きなSFTデータスケールは、デルタパラメータの等級、特異値、エントロピーを増幅し、圧縮誤差を悪化させる。
そこで我々はDQRELO(Delta Compression via Quantization and Residual Low-Rank)を提案する。
粗い1ビットの量子化を組み合わせ、デルタの支配的な構造を捉える。
この挑戦的な設定の下で、高密度およびMoEアーキテクチャにまたがる様々なLLMの実験は、DQRELOが既存のメソッドより優れていることを示す。
さらに, デルタ圧縮の鍵となる設計原理を実証分析により確立し, 作業難易度, アーキテクチャ, レイヤ位置決めが, 生産システムにおける最適圧縮戦略を導出する予測可能なパターンをいかに生み出すかを示す。
関連論文リスト
- Delta-SVD: Efficient Compression for Personalized Text-to-Image Models [25.0585375727713]
本研究では,DreamBoothファインチューニングによるパラメータ重み付け更新をターゲットとした,ポストホックなトレーニング不要圧縮手法であるDelta-SVDを提案する。
Delta-SVD は,CLIP スコア,SSIM,FID で測定された生成品質の低下を無視して,かなりの圧縮を実現することを示す。
論文 参考訳(メタデータ) (2025-08-23T01:21:46Z) - Enhancing Delta Compression in LLMs via SVD-based Quantization Error Minimization [18.037215883638535]
我々は、特異値分解空間における量子化誤差を最小限に抑えるための適応型混合精度デルタ圧縮フレームワークであるDeltaMixを紹介する。
DeltaMixは、AIME2024やGQAといったタスクのベースラインメソッドを一貫して上回っている。
論文 参考訳(メタデータ) (2025-06-05T08:17:12Z) - Breaking the Compression Ceiling: Data-Free Pipeline for Ultra-Efficient Delta Compression [57.71917274869577]
UltraDeltaはデータフリーのデルタ圧縮パイプラインで、超高圧縮と強力なパフォーマンスを実現する。
UltraDeltaは、冗長性を最小化し、情報を最大化し、層間、層内、大域的な寸法で性能を安定させるように設計されている。
論文 参考訳(メタデータ) (2025-05-19T10:37:22Z) - Dynamic Base model Shift for Delta Compression [53.505380509713575]
デルタ圧縮はデルタパラメータの冗長性を減少させることでコスト削減を試みる。
既存のメソッドはデフォルトでベースモデルとして事前訓練されたモデルを使用し、各タスクのデルタパラメータを圧縮する。
デルタ圧縮を行う前にベースモデルを対象タスクに動的に適応させる動的ベースモデルシフト(DBMS)を提案する。
論文 参考訳(メタデータ) (2025-05-16T15:11:19Z) - Seeing Delta Parameters as JPEG Images: Data-Free Delta Compression with Discrete Cosine Transform [51.29604910007176]
従来のJPEG画像圧縮にインスパイアされた最初のデータフリーデルタ圧縮手法であるDelta-DCTを導入し、離散コサイン変換(DCT)を利用する。
提案したデルタ-DCTはトレーニングやデータキャリブレーションを一切必要とせず、1ビット相当のデルタ圧縮比で元の微調整モデルに匹敵する性能を達成し、(1)最近7Bから13Bに異なるサイズのLSMを新たにリリースし、(2)RoBERTaやT5モデルを含む比較的小さな言語モデル、(3)視覚トランスフォーマーモデル、(4)マルチモーダルBEiT-3モデルなど様々なモデルで達成した。
論文 参考訳(メタデータ) (2025-03-09T16:03:48Z) - DeltaDQ: Ultra-High Delta Compression for Fine-Tuned LLMs via Group-wise Dropout and Separate Quantization [17.501956455837707]
大規模言語モデルは、教師付き微調整により、様々な下流タスクにおいて例外的なパフォーマンスを達成する。
デルタ重量を圧縮する現在の方法は超高圧縮を達成するのに苦労している。
デルタ重みの超高圧縮を実現するために,分布駆動型デルタ圧縮フレームワークデルタDQを提案する。
論文 参考訳(メタデータ) (2024-10-11T09:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。