Fugu-MT 論文翻訳(概要): Task Vector Quantization for Memory-Efficient Model Merging

論文の概要: Task Vector Quantization for Memory-Efficient Model Merging

arxiv url: http://arxiv.org/abs/2503.06921v1
Date: Mon, 10 Mar 2025 05:00:24 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.704829
Title: Task Vector Quantization for Memory-Efficient Model Merging
Title（参考訳）: メモリ効率の良いモデルマージのためのタスクベクトル量子化
Authors: Youngeun Kim, Seunghwan Lee, Aecheon Jung, Bogon Ryu, Sungeun Hong,
Abstract要約: 細調整されたチェックポイントを定量化する代わりに,タスクベクトルの定量化を提案する。本手法は,完全精度チェックポイントに必要なメモリの8%しか使用せず,モデルマージ性能を維持または改善する。
参考スコア（独自算出の注目度）: 11.777982281994193
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Model merging enables efficient multi-task models by combining task-specific fine-tuned checkpoints. However, storing multiple task-specific checkpoints requires significant memory, limiting scalability and restricting model merging to larger models and diverse tasks. In this paper, we propose quantizing task vectors (i.e., the difference between pre-trained and fine-tuned checkpoints) instead of quantizing fine-tuned checkpoints. We observe that task vectors exhibit a narrow weight range, enabling low precision quantization (up to 4 bit) within existing task vector merging frameworks. To further mitigate quantization errors within ultra-low bit precision (e.g., 2 bit), we introduce Residual Task Vector Quantization, which decomposes the task vector into a base vector and offset component. We allocate bits based on quantization sensitivity, ensuring precision while minimizing error within a memory budget. Experiments on image classification and dense prediction show our method maintains or improves model merging performance while using only 8% of the memory required for full-precision checkpoints.
Abstract（参考訳）: モデルマージはタスク固有の微調整チェックポイントを組み合わせることで、効率的なマルチタスクモデルを可能にする。しかし、複数のタスク固有のチェックポイントを保存するには、大きなメモリを必要とし、スケーラビリティを制限し、より大きなモデルと多様なタスクにマージするモデルを制限する。本稿では,微調整されたチェックポイントを定量化するのではなく,タスクベクトルの定量化(すなわち,事前学習されたチェックポイントと微調整されたチェックポイントの違い)を提案する。タスクベクトルは狭いウェイト範囲を示し、既存のタスクベクトルマージフレームワーク内での低い精度の量子化(最大4ビット)を可能にする。超低ビット精度(例えば2ビット)での量子化誤差を緩和するために、タスクベクトルを基本ベクトルとオフセット成分に分解するResidual Task Vector Quantizationを導入する。我々は、量子化感度に基づいてビットを割り当て、メモリ予算内でエラーを最小限に抑えながら精度を確保する。画像分類と高密度予測実験により,本手法は完全精度チェックポイントに必要なメモリの8%しか使用せず,モデルマージ性能を維持・改善することを示した。

関連論文リスト

Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文参考訳（メタデータ） (2024-11-27T20:08:55Z)
NegMerge: Sign-Consensual Weight Merging for Machine Unlearning [21.081262106431506]
機械学習は、訓練されたモデルから特定の知識を選択的に除去することを目的としている。 Task Arithmetic(英語版)のような既存のアプローチは、元のモデルの重みから減算するためのタスクベクトルを作成するために、左折セットにモデルを微調整する。本稿では,1つの選択ではなく,様々なハイパーパラメータで訓練されたすべての微調整モデルを利用する新しい手法を提案する。
論文参考訳（メタデータ） (2024-10-08T00:50:54Z)
Localizing Task Information for Improved Model Merging and Compression [61.16012721460561]
我々は,各タスクの重み付けが重なり合わないことが多いため,各タスクがマージされた後も,各タスクの解決に必要な情報が保存されていることを示す。本稿では,そのような重みを排除し,既存のモデルマージ手法の一般的な性能を改善するアルゴリズムであるConsensus Mergingを提案する。
論文参考訳（メタデータ） (2024-05-13T14:54:37Z)
Editing Models with Task Arithmetic [69.97273155842966]
事前訓練されたモデルの振る舞いを変えることは、機械学習システムの開発において一般的なプラクティスである。タスクを微調整した後、同じモデルの重みから事前学習したモデルの重みを減らしてタスクベクトルを構築する。これらのタスクベクトルは、否定や加算といった算術演算によって変更・結合可能であることを示す。
論文参考訳（メタデータ） (2022-12-08T05:50:53Z)
Patching open-vocabulary models by interpolating weights [85.12977566514984]
CLIPのようなオープン語彙モデルは、多くの画像分類タスクで高い精度を達成する。そこでは,すでに性能が十分であるタスクの精度を低下させることなく,特定のタスクの精度を向上させることを目標とするモデルパッチについて検討する。本研究は,開語彙モデルがスクラッチから再学習することなく高い精度を達成できる課題の集合を拡張することができることを示した。
論文参考訳（メタデータ） (2022-08-10T23:47:43Z)
n-hot: Efficient bit-level sparsity for powers-of-two neural network quantization [0.0]
パワーオブツー(PoT)量子化は、リソース制約ハードウェア上でのディープニューラルネットワークのビット演算数を減少させる。 PoT量子化は、表現能力が限られているため、深刻な精度低下を引き起こす。メモリ効率の高い方法で精度とコストを両立した効率的なPoT量子化方式を提案する。
論文参考訳（メタデータ） (2021-03-22T10:13:12Z)
VS-Quant: Per-vector Scaled Quantization for Accurate Low-Precision Neural Network Inference [7.886868529510128]
量子化は、訓練されたモデルの浮動小数点重みとアクティベーションをスケールファクターを用いて低ビット幅整数値にマッピングする。過剰な量子化、過度に精度を低下させると、精度が低下する。ベクトル単位のスケールファクタは、2レベル量子化スキームを使用する場合、低ビット幅の整数で実装できる。
論文参考訳（メタデータ） (2021-02-08T19:56:04Z)
Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。 diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文参考訳（メタデータ） (2020-12-14T12:34:01Z)
Leveraging Automated Mixed-Low-Precision Quantization for tiny edge microcontrollers [76.30674794049293]
本稿では、HAQフレームワークに基づく自動混合精度量子化フローを提案するが、MCUデバイスのメモリおよび計算特性に特化している。具体的には、強化学習エージェントは、個々の重みとアクティベーションテンソルの2, 4, 8ビットのうち、最高の均一量子化レベルを探索する。重量のみの量子化のために2MBに制限されたMCUクラスのメモリが与えられた場合、混合精度エンジンによって生成された圧縮されたモデルは、最先端のソリューションと同じくらい正確である。
論文参考訳（メタデータ） (2020-08-12T06:09:58Z)
Post-training Quantization with Multiple Points: Mixed Precision without Mixed Precision [20.081543082708688]
低ビット数の複数ベクトルの線形結合を用いて全精度重みベクトルを近似する多点量子化法を提案する。提案手法は,ImageNet分類における最先端の手法よりも優れており,PASCAL VOCオブジェクト検出のようなより困難なタスクに一般化可能であることを示す。
論文参考訳（メタデータ） (2020-02-20T22:37:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。