論文の概要: Task Vector Quantization for Memory-Efficient Model Merging
- arxiv url: http://arxiv.org/abs/2503.06921v1
- Date: Mon, 10 Mar 2025 05:00:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:46:44.303792
- Title: Task Vector Quantization for Memory-Efficient Model Merging
- Title(参考訳): メモリ効率の良いモデルマージのためのタスクベクトル量子化
- Authors: Youngeun Kim, Seunghwan Lee, Aecheon Jung, Bogon Ryu, Sungeun Hong,
- Abstract要約: 細調整されたチェックポイントを定量化する代わりに,タスクベクトルの定量化を提案する。
本手法は,完全精度チェックポイントに必要なメモリの8%しか使用せず,モデルマージ性能を維持または改善する。
- 参考スコア(独自算出の注目度): 11.777982281994193
- License:
- Abstract: Model merging enables efficient multi-task models by combining task-specific fine-tuned checkpoints. However, storing multiple task-specific checkpoints requires significant memory, limiting scalability and restricting model merging to larger models and diverse tasks. In this paper, we propose quantizing task vectors (i.e., the difference between pre-trained and fine-tuned checkpoints) instead of quantizing fine-tuned checkpoints. We observe that task vectors exhibit a narrow weight range, enabling low precision quantization (up to 4 bit) within existing task vector merging frameworks. To further mitigate quantization errors within ultra-low bit precision (e.g., 2 bit), we introduce Residual Task Vector Quantization, which decomposes the task vector into a base vector and offset component. We allocate bits based on quantization sensitivity, ensuring precision while minimizing error within a memory budget. Experiments on image classification and dense prediction show our method maintains or improves model merging performance while using only 8% of the memory required for full-precision checkpoints.
- Abstract(参考訳): モデルマージはタスク固有の微調整チェックポイントを組み合わせることで、効率的なマルチタスクモデルを可能にする。
しかし、複数のタスク固有のチェックポイントを保存するには、大きなメモリを必要とし、スケーラビリティを制限し、より大きなモデルと多様なタスクにマージするモデルを制限する。
本稿では,微調整されたチェックポイントを定量化するのではなく,タスクベクトルの定量化(すなわち,事前学習されたチェックポイントと微調整されたチェックポイントの違い)を提案する。
タスクベクトルは狭いウェイト範囲を示し、既存のタスクベクトルマージフレームワーク内での低い精度の量子化(最大4ビット)を可能にする。
超低ビット精度(例えば2ビット)での量子化誤差を緩和するために、タスクベクトルを基本ベクトルとオフセット成分に分解するResidual Task Vector Quantizationを導入する。
我々は、量子化感度に基づいてビットを割り当て、メモリ予算内でエラーを最小限に抑えながら精度を確保する。
画像分類と高密度予測実験により,本手法は完全精度チェックポイントに必要なメモリの8%しか使用せず,モデルマージ性能を維持・改善することを示した。
関連論文リスト
- Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。
余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文 参考訳(メタデータ) (2024-11-27T20:08:55Z) - Localizing Task Information for Improved Model Merging and Compression [61.16012721460561]
我々は,各タスクの重み付けが重なり合わないことが多いため,各タスクがマージされた後も,各タスクの解決に必要な情報が保存されていることを示す。
本稿では,そのような重みを排除し,既存のモデルマージ手法の一般的な性能を改善するアルゴリズムであるConsensus Mergingを提案する。
論文 参考訳(メタデータ) (2024-05-13T14:54:37Z) - Editing Models with Task Arithmetic [69.97273155842966]
事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。
タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。
これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
論文 参考訳(メタデータ) (2022-12-08T05:50:53Z) - Patching open-vocabulary models by interpolating weights [85.12977566514984]
CLIPのようなオープン語彙モデルは、多くの画像分類タスクで高い精度を達成する。
そこでは,すでに性能が十分であるタスクの精度を低下させることなく,特定のタスクの精度を向上させることを目標とするモデルパッチについて検討する。
本研究は,開語彙モデルがスクラッチから再学習することなく高い精度を達成できる課題の集合を拡張することができることを示した。
論文 参考訳(メタデータ) (2022-08-10T23:47:43Z) - n-hot: Efficient bit-level sparsity for powers-of-two neural network
quantization [0.0]
パワーオブツー(PoT)量子化は、リソース制約ハードウェア上でのディープニューラルネットワークのビット演算数を減少させる。
PoT量子化は、表現能力が限られているため、深刻な精度低下を引き起こす。
メモリ効率の高い方法で精度とコストを両立した効率的なPoT量子化方式を提案する。
論文 参考訳(メタデータ) (2021-03-22T10:13:12Z) - VS-Quant: Per-vector Scaled Quantization for Accurate Low-Precision
Neural Network Inference [7.886868529510128]
量子化は、訓練されたモデルの浮動小数点重みとアクティベーションをスケールファクターを用いて低ビット幅整数値にマッピングする。
過剰な量子化、過度に精度を低下させると、精度が低下する。
ベクトル単位のスケールファクタは、2レベル量子化スキームを使用する場合、低ビット幅の整数で実装できる。
論文 参考訳(メタデータ) (2021-02-08T19:56:04Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z) - Leveraging Automated Mixed-Low-Precision Quantization for tiny edge
microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。
具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。
重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文 参考訳(メタデータ) (2020-08-12T06:09:58Z) - Post-training Quantization with Multiple Points: Mixed Precision without
Mixed Precision [20.081543082708688]
低ビット数の複数ベクトルの線形結合を用いて全精度重みベクトルを近似する多点量子化法を提案する。
提案手法は,ImageNet分類における最先端の手法よりも優れており,PASCAL VOCオブジェクト検出のようなより困難なタスクに一般化可能であることを示す。
論文 参考訳(メタデータ) (2020-02-20T22:37:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。