論文の概要: ADAMIX: Adaptive Mixed-Precision Delta-Compression with Quantization Error Optimization for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.11087v1
- Date: Thu, 05 Jun 2025 08:17:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.567953
- Title: ADAMIX: Adaptive Mixed-Precision Delta-Compression with Quantization Error Optimization for Large Language Models
- Title(参考訳): ADAMIX:大規模言語モデルに対する量子化誤差最適化を用いた適応混合精度デルタ圧縮
- Authors: Boya Xiong, Shuo Wang, Weifeng Ge, Guanhua Chen, Yun Chen,
- Abstract要約: 大規模言語モデル(LLM)は、様々な知識集約的かつ複雑な推論タスクにおいて印象的なパフォーマンスを達成する。
最近の研究は、カスタマイズされたLLMと対応するベースモデルの間のデルタパラメータの定量化と圧縮のためのデルタ圧縮アプローチを探求している。
効果的な適応型混合精度デルタ圧縮フレームワークであるADAmixを提案する。
- 参考スコア(独自算出の注目度): 14.975251449732175
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) achieve impressive performance on various knowledge-intensive and complex reasoning tasks in different domains. In certain scenarios like multi-tenant serving, a large number of LLMs finetuned from the same base model are deployed to meet complex requirements for users. Recent works explore delta-compression approaches to quantize and compress the delta parameters between the customized LLM and the corresponding base model. However, existing works either exhibit unsatisfactory performance at high compression ratios or depend on empirical bit allocation schemes. In this work, we propose ADAMIX, an effective adaptive mixed-precision delta-compression framework. We provide a mathematical derivation of quantization error to motivate our mixed-precision compression strategy and formulate the optimal mixed-precision bit allocation scheme as the solution to a 0/1 integer linear programming problem. Our derived bit allocation strategy minimizes the quantization error while adhering to a predefined compression ratio requirement. Experimental results on various models and benchmarks demonstrate that our approach surpasses the best baseline by a considerable margin. On tasks like AIME2024 and GQA, where the norm of $\Delta \mathbf{W}$ is large and the base model lacks sufficient ability, ADAMIX outperforms the best baseline Delta-CoMe by 22.3% and 6.1% with 7B models, respectively.
- Abstract(参考訳): 大規模言語モデル(LLM)は、異なるドメインにおける様々な知識集約的かつ複雑な推論タスクにおいて、印象的なパフォーマンスを達成する。
マルチテナントサービスのような特定のシナリオでは、同じベースモデルから微調整された多数のLLMが、ユーザの複雑な要求を満たすためにデプロイされます。
最近の研究は、カスタマイズされたLLMと対応するベースモデルの間のデルタパラメータの定量化と圧縮のためのデルタ圧縮アプローチを探求している。
しかし、既存の作品は高い圧縮比で不満足な性能を示すか、経験的なビット割り当て方式に依存している。
本研究では,効果的な適応型混合精度デルタ圧縮フレームワークであるADAMIXを提案する。
量子化誤差の数学的導出を行い、混合精度圧縮戦略を動機付け、0/1整数線形計画問題の解として最適混合精度ビット割り当てスキームを定式化する。
我々の導出したビット割り当て戦略は、予め定義された圧縮比要求に固執しながら量子化誤差を最小化する。
各種モデルおよびベンチマークの実験結果から,本手法が最良基準をかなり上回っていることが示された。
AIME2024 や GQA のようなタスクでは、$\Delta \mathbf{W}$ のノルムが大きく、ベースモデルに十分な能力がない場合、ADAMIX は 7B モデルでそれぞれ 22.3% と 6.1% で最高のベースライン Delta-CoMe を上回っている。
関連論文リスト
- Flexible Mixed Precision Quantization for Learned Image Compression [4.847449762378203]
本稿では、異なるビット幅を量子化されたネットワークの異なる層に割り当てるフレキシブル混合精密量子化法(FMPQ)を提案する。
また、量子化ビット幅の所望分布を探索する際の時間複雑度を低減する適応探索アルゴリズムを導入する。
論文 参考訳(メタデータ) (2025-06-02T00:12:50Z) - Dynamic Base model Shift for Delta Compression [53.505380509713575]
デルタ圧縮はデルタパラメータの冗長性を減少させることでコスト削減を試みる。
既存のメソッドはデフォルトでベースモデルとして事前訓練されたモデルを使用し、各タスクのデルタパラメータを圧縮する。
デルタ圧縮を行う前にベースモデルを対象タスクに動的に適応させる動的ベースモデルシフト(DBMS)を提案する。
論文 参考訳(メタデータ) (2025-05-16T15:11:19Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - DeltaDQ: Ultra-High Delta Compression for Fine-Tuned LLMs via Group-wise Dropout and Separate Quantization [17.501956455837707]
大規模言語モデルは、教師付き微調整により、様々な下流タスクにおいて例外的なパフォーマンスを達成する。
デルタ重量を圧縮する現在の方法は超高圧縮を達成するのに苦労している。
デルタ重みの超高圧縮を実現するために,分布駆動型デルタ圧縮フレームワークデルタDQを提案する。
論文 参考訳(メタデータ) (2024-10-11T09:44:16Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である
本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。
実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-23T16:21:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。