論文の概要: Enhancing Delta Compression in LLMs via SVD-based Quantization Error Minimization
- arxiv url: http://arxiv.org/abs/2506.11087v2
- Date: Sat, 27 Sep 2025 06:06:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 20:10:04.42693
- Title: Enhancing Delta Compression in LLMs via SVD-based Quantization Error Minimization
- Title(参考訳): SVDに基づく量子化誤差最小化によるLCMのデルタ圧縮向上
- Authors: Boya Xiong, Shuo Wang, Weifeng Ge, Guanhua Chen, Yun Chen,
- Abstract要約: 我々は、特異値分解空間における量子化誤差を最小限に抑えるための適応型混合精度デルタ圧縮フレームワークであるDeltaMixを紹介する。
DeltaMixは、AIME2024やGQAといったタスクのベースラインメソッドを一貫して上回っている。
- 参考スコア(独自算出の注目度): 18.037215883638535
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fine-tuning is a crucial process for adapting large language models (LLMs) to diverse applications. In certain scenarios, like multi-tenant serving, a large number of LLMs finetuned from the same base model are deployed to meet complex requirements for users. Recent works explore delta-compression approaches to quantize and compress the delta weights between the customized LLM and the corresponding base model. However, they exhibit inadequate performance at high compression ratios due to their empirical nature. In this work, we introduce DeltaMix, an adaptive mixed-precision delta-compression framework designed to minimize quantization error in the singular value decomposition (SVD) space without imposing additional assumptions. DeltaMix provides a theoretical justification for the necessity of mixed-precision compression and presents a practical quantization solution that involves solving a 0/1 linear integer programming problem alongside a reconstruction target correction method. Experimental results across multiple models and benchmarks illustrate that DeltaMix consistently outperforms all baseline methods. Notably, on tasks such as AIME2024 and GQA, DeltaMix exceeds the performance of the best baseline, Delta-CoMe, by 22.3\% and 6.1\% for 7B parameter models, respectively.
- Abstract(参考訳): ファインチューニングは、大規模言語モデル(LLM)を多様なアプリケーションに適用するための重要なプロセスである。
マルチテナントサービスのような特定のシナリオでは、同じベースモデルから微調整された多数のLLMが、ユーザの複雑な要求を満たすためにデプロイされます。
最近の研究は、カスタマイズされたLLMと対応するベースモデルの間のデルタ重みを定量化し、圧縮するためのデルタ圧縮アプローチを探求している。
しかし、その経験的性質から、高い圧縮比で不適切な性能を示す。
本研究では,特異値分解(SVD)空間における量子化誤差を最小限に抑えるための適応型混合精度デルタ圧縮フレームワークであるDeltaMixを紹介する。
DeltaMixは混合精度圧縮の必要性を理論的に正当化し、再構成対象補正法とともに0/1線形整数計画問題の解法を含む実用的な量子化ソリューションを提供する。
複数のモデルとベンチマークでの実験結果から、DeltaMixはすべてのベースラインメソッドを一貫して上回っていることが分かる。
特に AIME2024 や GQA のようなタスクでは、DeltaMix は 7B パラメータモデルでそれぞれ 22.3 % と 6.1 % の最高のベースラインである Delta-CoMe のパフォーマンスを上回っている。
関連論文リスト
- Flexible Mixed Precision Quantization for Learned Image Compression [4.847449762378203]
本稿では、異なるビット幅を量子化されたネットワークの異なる層に割り当てるフレキシブル混合精密量子化法(FMPQ)を提案する。
また、量子化ビット幅の所望分布を探索する際の時間複雑度を低減する適応探索アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-06-02T00:12:50Z) - Dynamic Base model Shift for Delta Compression [53.505380509713575]
デルタ圧縮はデルタパラメータの冗長性を減少させることでコスト削減を試みる。
既存のメソッドはデフォルトでベースモデルとして事前訓練されたモデルを使用し、各タスクのデルタパラメータを圧縮する。
デルタ圧縮を行う前にベースモデルを対象タスクに動的に適応させる動的ベースモデルシフト(DBMS)を提案する。
論文 参考訳(メタデータ) (2025-05-16T15:11:19Z) - Mix-QSAM: Mixed-Precision Quantization of the Segment Anything Model [0.0]
Mix-QSAMはSegment Anything Model(SAM)のためのPTQフレームワークである。
モデル出力に対する各レイヤの寄与を定量化するために,Kulback-Leibler (KL) 偏差を用いて導出したレイヤ単位の重要度スコアを導入する。
また、隣接層間の依存関係を捉えるために、因果的相互情報に基づく新しい計量である層間相乗法を導入する。
論文 参考訳(メタデータ) (2025-05-08T00:08:31Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - DeltaDQ: Ultra-High Delta Compression for Fine-Tuned LLMs via Group-wise Dropout and Separate Quantization [17.501956455837707]
大規模言語モデルは、教師付き微調整により、様々な下流タスクにおいて例外的なパフォーマンスを達成する。
デルタ重量を圧縮する現在の方法は超高圧縮を達成するのに苦労している。
デルタ重みの超高圧縮を実現するために,分布駆動型デルタ圧縮フレームワークデルタDQを提案する。
論文 参考訳(メタデータ) (2024-10-11T09:44:16Z) - Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。