論文の概要: ImPart: Importance-Aware Delta-Sparsification for Improved Model Compression and Merging in LLMs
- arxiv url: http://arxiv.org/abs/2504.13237v1
- Date: Thu, 17 Apr 2025 16:39:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 20:43:50.193374
- Title: ImPart: Importance-Aware Delta-Sparsification for Improved Model Compression and Merging in LLMs
- Title(参考訳): 要旨: LLMにおけるモデル圧縮とマージの改善のためのデルタ分離の重要性
- Authors: Yan Yang, Yixia Li, Hongru Wang, Xuetao Wei, Jianqiao Yu, Yun Chen, Guanhua Chen,
- Abstract要約: ImPartは、新しく重要なデルタスペーサー化アプローチである。
異なる特異ベクトルの空間比をその重要性に基づいて調整する。
- 参考スコア(独自算出の注目度): 9.435738597849447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the proliferation of task-specific large language models, delta compression has emerged as a method to mitigate the resource challenges of deploying numerous such models by effectively compressing the delta model parameters. Previous delta-sparsification methods either remove parameters randomly or truncate singular vectors directly after singular value decomposition (SVD). However, these methods either disregard parameter importance entirely or evaluate it with too coarse a granularity. In this work, we introduce ImPart, a novel importance-aware delta sparsification approach. Leveraging SVD, it dynamically adjusts sparsity ratios of different singular vectors based on their importance, effectively retaining crucial task-specific knowledge even at high sparsity ratios. Experiments show that ImPart achieves state-of-the-art delta sparsification performance, demonstrating $2\times$ higher compression ratio than baselines at the same performance level. When integrated with existing methods, ImPart sets a new state-of-the-art on delta quantization and model merging.
- Abstract(参考訳): タスク固有の大規模言語モデルの普及に伴い、デルタ圧縮は、デルタモデルパラメータを効果的に圧縮することで、多数のモデルを展開する際のリソース課題を軽減する方法として登場した。
以前のデルタ分離法では、パラメータをランダムに除去するか、特異値分解(SVD)後に直接特異ベクトルを切断する。
しかし、これらの手法はパラメータの重要性を完全に無視するか、粗い粒度で評価する。
本稿では,ImPartについて紹介する。
SVDを利用することで、異なる特異ベクトルの疎度比をその重要性に基づいて動的に調整し、高い疎度比においても重要なタスク固有の知識を効果的に保持する。
実験によると、ImPartは最先端のデルタスペーシフィケーション性能を達成し、同じ性能レベルでベースラインよりも2\times$高い圧縮比を示す。
既存のメソッドと統合されると、ImPartはデルタ量子化とモデルマージに新たな最先端を設定できる。
関連論文リスト
- Seeing Delta Parameters as JPEG Images: Data-Free Delta Compression with Discrete Cosine Transform [51.29604910007176]
従来のJPEG画像圧縮にインスパイアされた最初のデータフリーデルタ圧縮手法であるDelta-DCTを導入し、離散コサイン変換(DCT)を利用する。
提案したデルタ-DCTはトレーニングやデータキャリブレーションを一切必要とせず、1ビット相当のデルタ圧縮比で元の微調整モデルに匹敵する性能を達成し、(1)最近7Bから13Bに異なるサイズのLSMを新たにリリースし、(2)RoBERTaやT5モデルを含む比較的小さな言語モデル、(3)視覚トランスフォーマーモデル、(4)マルチモーダルBEiT-3モデルなど様々なモデルで達成した。
論文 参考訳(メタデータ) (2025-03-09T16:03:48Z) - Optimizing Singular Spectrum for Large Language Model Compression [95.7621116637755]
SVDの分解したコンポーネントをデータ駆動で再スケールする新しい圧縮フレームワークであるSoCoを紹介する。
学習可能な特異スペクトルのおかげで、SoCoは重要度スコアに応じて成分を適応的にプーンする。
複数のLLMおよびベンチマークでの実験的な評価は、SoCoがモデル圧縮における最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2025-02-20T23:18:39Z) - Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。
ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - DARE the Extreme: Revisiting Delta-Parameter Pruning For Fine-Tuned Models [39.411072236355515]
DAREx-qは,高い刈取速度で性能を著しく向上させる再スケーリング係数の修正である。
我々は、DAREx-qが、LoRAのようなバニラパラメータ効率の良い微調整技術とシームレスに結合できることを実証した。
我々はDPPにおける重要度に基づくプルーニング手法の適用を再検討し、デルタパラメータが大きい場合のランダムな手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-12T03:21:58Z) - DeltaDQ: Ultra-High Delta Compression for Fine-Tuned LLMs via Group-wise Dropout and Separate Quantization [17.501956455837707]
大規模言語モデルは、教師付き微調整により、様々な下流タスクにおいて例外的なパフォーマンスを達成する。
デルタ重量を圧縮する現在の方法は超高圧縮を達成するのに苦労している。
デルタ重みの超高圧縮を実現するために,分布駆動型デルタ圧縮フレームワークデルタDQを提案する。
論文 参考訳(メタデータ) (2024-10-11T09:44:16Z) - Numerical Optimizations for Weighted Low-rank Estimation on Language
Model [73.12941276331316]
Singular value decomposition (SVD) は、より小さい行列でターゲット行列を近似する最も一般的な圧縮手法の1つである。
標準SVDは行列内のパラメータを同じ重要性で扱うが、これは単純だが非現実的な仮定である。
本手法は,ニューラルベース言語モデルにおいて,現在のSOTA法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-02T00:58:02Z) - Language model compression with weighted low-rank factorization [73.61874728240568]
本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。
結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。
提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-30T21:57:07Z) - Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for
Pre-trained Language Models [90.24999406296867]
標準の微調整とは対照的に、デルタチューニングはモデルパラメータのごく一部を微調整するだけであり、残りは触れないままである。
近年の研究では、パラメータ選択の異なる一連のデルタチューニング手法が、フルパラメータの微調整と同等の性能を達成できることが示されている。
論文 参考訳(メタデータ) (2022-03-14T07:56:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。