論文の概要: Less is More: Efficient Model Merging with Binary Task Switch
- arxiv url: http://arxiv.org/abs/2412.00054v1
- Date: Sun, 24 Nov 2024 14:47:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-08 08:47:19.389863
- Title: Less is More: Efficient Model Merging with Binary Task Switch
- Title(参考訳): より少ない - バイナリタスクスイッチによる効率的なモデルマージ
- Authors: Biqing Qi, Fangyuan Li, Zhen Wang, Junqi Gao, Dong Li, Peng Ye, Bowen Zhou,
- Abstract要約: タスクベクトルを3つのコンポーネントに分解するタスクスイッチを導入する。
タスクベクトルを二項化形式で格納することで、T-Switchは効率的なタスクパラメータストレージを確保しながらパラメータ競合を緩和する。
実験の結果,本手法は既存のベースラインよりも大幅な性能向上を実現し,完全精度パラメータの記憶空間を1~3%しか必要としないことがわかった。
- 参考スコア(独自算出の注目度): 19.622432243113852
- License:
- Abstract: As an effective approach to equip models with multi-task capabilities without additional training, model merging has garnered significant attention. However, existing methods face challenges of redundant parameter conflicts and the excessive storage burden of parameters. In this work, through controlled experiments, we reveal that for task vectors, only those parameters with magnitudes above a certain threshold contribute positively to the task, exhibiting a pulse-like characteristic. We then attempt leveraging this characteristic to binarize the task vectors and reduce storage overhead. Further controlled experiments show that the binarized task vectors incur almost no decrease in fine-tuning and merging performance, and even exhibit stronger performance improvements as the proportion of redundant parameters increases. Based on these insights, we propose Task Switch (T-Switch), which decomposes task vectors into three components: 1) an activation switch instantiated by a binarized mask vector, 2) a polarity switch instantiated by a binarized sign vector, and 3) a scaling knob instantiated by a scalar coefficient. By storing task vectors in a binarized form, T-Switch alleviates parameter conflicts while ensuring efficient task parameter storage. Furthermore, to enable automated switch combination in T-Switch, we further introduce Auto-Switch, which enables training-free switch combination via retrieval from a small query set. Experiments indicate that our methods achieve significant performance improvements over existing baselines, requiring only 1-3% of the storage space of full-precision parameters.
- Abstract(参考訳): 追加の訓練を受けずにマルチタスク能力を持つモデルを装備するための効果的なアプローチとして、モデルマージは大きな注目を集めている。
しかし、既存の手法では冗長なパラメータの衝突やパラメータの過剰な保存負担といった問題に直面している。
本研究では、制御された実験を通して、タスクベクトルに対して、ある閾値を超える大きさのパラメータだけがタスクに正の寄与を示し、パルスのような特性を示すことを明らかにした。
次に、この特徴を活用してタスクベクトルを二項化し、ストレージオーバーヘッドを低減する。
さらに制御された実験により、二項化タスクベクトルは微調整やマージ性能の低下をほとんど起こさず、冗長パラメータの比率が増加するにつれて性能が向上することを示した。
これらの知見に基づき、タスクベクトルを3つのコンポーネントに分解するタスクスイッチ(T-Switch)を提案する。
1)バイナライズマスクベクトルによりインスタンス化されたアクティベーションスイッチ。
2 双有理符号ベクトルによりインスタンス化された極性スイッチ及び
3)スカラー係数によりインスタンス化されたスケーリングノブ。
タスクベクトルを二項化形式で格納することで、T-Switchは効率的なタスクパラメータストレージを確保しながらパラメータ競合を緩和する。
さらに、T-Switchにおける自動スイッチの組み合わせを可能にするために、小さなクエリセットから検索することで、トレーニング不要のスイッチの組み合わせを可能にするAuto-Switchについても紹介する。
実験の結果,本手法は既存のベースラインよりも大幅な性能向上を実現し,完全精度パラメータの記憶空間を1~3%しか必要としないことがわかった。
関連論文リスト
- Adapter-X: A Novel General Parameter-Efficient Fine-Tuning Framework for Vision [52.80792724919329]
本稿では,2次元画像と3次元点雲の微調整を改善するためのAdapter-Xという新しいフレームワークを提案する。
2D画像と3Dポイントの雲のモードで完全な微調整をし、パラメータが大幅に少ない、すなわち2Dと3Dの分類タスクにおいて、オリジナルのトレーニング可能なパラメータのわずか0.20%と1.88%で、初めて性能を上回った。
論文 参考訳(メタデータ) (2024-06-05T08:26:44Z) - Localizing Task Information for Improved Model Merging and Compression [61.16012721460561]
我々は,各タスクの重み付けが重なり合わないことが多いため,各タスクがマージされた後も,各タスクの解決に必要な情報が保存されていることを示す。
本稿では,そのような重みを排除し,既存のモデルマージ手法の一般的な性能を改善するアルゴリズムであるConsensus Mergingを提案する。
論文 参考訳(メタデータ) (2024-05-13T14:54:37Z) - ScaLearn: Simple and Highly Parameter-Efficient Task Transfer by Learning to Scale [18.396897413970965]
ScaLearnは単純かつパラメータ効率の高い2段階MTL法である。
我々はScaLearnが少数の転送パラメータを持つ強いベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-10-02T14:01:36Z) - Prompt Guided Transformer for Multi-Task Dense Prediction [14.815576352301322]
本稿では,Prompt Guided Transformerと呼ばれる軽量なタスク条件モデルを導入し,性能とモデルパラメータを最適化する。
提案手法は,タスク条件のパラメータを少なくしながら,タスク条件付き手法の最先端化を実現し,性能とパラメータサイズの間に大きなバランスを保っている。
論文 参考訳(メタデータ) (2023-07-28T07:25:57Z) - Jointly Reparametrized Multi-Layer Adaptation for Efficient and Private
Tuning [32.69028093984526]
本稿では,複数のトランス層にタスク固有のパラメータを導入する新しい言語トランスフォーマー微調整手法を提案する。
GLUEタスクの完全な微調整性能の5%以内で、タスク毎のパラメータは4,100にも満たない。
本手法は,プライバシ制約のトレーニングにおいて,最近のいくつかのファインタニング手法と比較して,最適あるいは同等のユーティリティを実現する。
論文 参考訳(メタデータ) (2023-05-30T17:55:06Z) - Consolidator: Mergeable Adapter with Grouped Connections for Visual
Adaptation [53.835365470800916]
視覚変換器の知識を効率よく効果的に伝達する方法を示す。
調整可能なパラメータの小さなセットを追加して,事前学習モデルを変更するコンソリケータを提案する。
我々のコンソリエータは、0.35%のパラメータで完全な微調整よりも最大7.56の精度で到達できる。
論文 参考訳(メタデータ) (2023-04-30T23:59:02Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z) - Parameter-Efficient Transfer Learning with Diff Pruning [108.03864629388404]
diff pruningは、プリトレイン・ファインチューンフレームワーク内でパラメータ効率の高い転送学習を可能にするシンプルなアプローチです。
diff pruningで微調整されたモデルは、GLUEベンチマークで完全に微調整されたベースラインのパフォーマンスと一致します。
論文 参考訳(メタデータ) (2020-12-14T12:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。