論文の概要: Effective and Parameter-Efficient Reusing Fine-Tuned Models
- arxiv url: http://arxiv.org/abs/2310.01886v1
- Date: Tue, 3 Oct 2023 08:39:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 16:56:38.702346
- Title: Effective and Parameter-Efficient Reusing Fine-Tuned Models
- Title(参考訳): ファインチューニングモデルの有効性とパラメータ効率
- Authors: Weisen Jiang and Baijiong Lin and Han Shi and Yu Zhang and and Zhenguo
Li and James T. Kwok
- Abstract要約: 本稿では, PERU(Reusing)ファインチューニングモデルに対する効率的な手法を提案する。
PerU-FFTとPERU-LoRAは、既存の再利用モデル手法よりも大きなマージンで優れている。
- 参考スコア(独自算出の注目度): 65.7197237630917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many pre-trained large-scale models provided online have become highly
effective in transferring to downstream tasks. At the same time, various
task-specific models fine-tuned on these pre-trained models are available
online for public use. In practice, as collecting task-specific data is
labor-intensive and fine-tuning the large pre-trained models is computationally
expensive, one can reuse task-specific finetuned models to deal with downstream
tasks. However, using a model per task causes a heavy burden on storage and
serving. Recently, many training-free and parameter-efficient methods have been
proposed for reusing multiple fine-tuned task-specific models into a single
multi-task model. However, these methods exhibit a large accuracy gap compared
with using a fine-tuned model per task. In this paper, we propose
Parameter-Efficient methods for ReUsing (PERU) fine-tuned models. For reusing
Fully Fine-Tuned (FFT) models, we propose PERU-FFT by injecting a sparse task
vector into a merged model by magnitude pruning. For reusing LoRA fine-tuned
models, we propose PERU-LoRA use a lower-rank matrix to approximate the LoRA
matrix by singular value decomposition. Both PERUFFT and PERU-LoRA are
training-free. Extensive experiments conducted on computer vision and natural
language process tasks demonstrate the effectiveness and parameter-efficiency
of the proposed methods. The proposed PERU-FFT and PERU-LoRA outperform
existing reusing model methods by a large margin and achieve comparable
performance to using a fine-tuned model per task.
- Abstract(参考訳): オンラインで提供される多くの事前訓練された大規模モデルは、下流タスクへの転送に非常に効果的である。
同時に、これらの事前訓練されたモデルに微調整された様々なタスク特化モデルがオンラインで公開されている。
実際、タスク固有のデータの収集は労働集約的であり、大きな事前学習されたモデルには計算コストがかかるため、ダウンストリームタスクを扱うためにタスク固有の微調整モデルを再利用することができる。
しかし、1つのタスクにモデルを使用することで、ストレージとサービスに重荷がかかる。
近年,複数の微調整タスク固有モデルを単一マルチタスクモデルに再利用するために,学習自由かつパラメータ効率のよい多くの手法が提案されている。
しかし,これらの手法はタスク毎の微調整モデルに比べて精度の差が大きい。
本稿では,パラメータ効率のよい再使用(PERU)モデルを提案する。
完全細調整(FFT)モデルを再利用するために,スパースタスクベクトルを大まかにプラニングすることでPERU-FFTを提案する。
LoRA微調整モデルを再利用するために,低ランク行列を用いて特異値分解によりLoRA行列を近似するPERU-LoRAを提案する。
PERUFFTとPERU-LoRAはどちらも無トレーニングである。
コンピュータビジョンと自然言語処理タスクに関する広範な実験により,提案手法の有効性とパラメータ効率が実証された。
提案したPERU-FFTとPERU-LoRAは、既存の再利用モデル手法を大きなマージンで上回り、タスク毎の微調整モデルと同等の性能を達成する。
関連論文リスト
- Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - MIRA: A Method of Federated MultI-Task Learning for LaRge LAnguage Models [29.655807841018497]
大規模言語モデル(LLM)の微調整手法を提案する。
提案手法は,各クライアントモデルの構造を利用して,他のクライアントのタスクやデータ分散を考慮した学習手法を実現する。
実験結果は,異なるデータセットとモデルを用いて,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-10-20T22:24:40Z) - MoDE: Effective Multi-task Parameter Efficient Fine-Tuning with a Mixture of Dyadic Experts [6.245113492272563]
Mixture of Dyadic Experts (MoDE) は効率的なマルチタスク適応のための新しい設計である。
我々の設計はよりきめ細かい混合を可能にし、それによってモデルの複数のタスクを共同で処理する能力を高めます。
論文 参考訳(メタデータ) (2024-08-02T18:05:10Z) - MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。
提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文 参考訳(メタデータ) (2024-06-17T10:12:45Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Representation Surgery for Multi-Task Model Merging [57.63643005215592]
マルチタスク学習(MTL)は、複数のタスクから情報を統一されたバックボーンに圧縮し、計算効率と一般化を改善する。
最近の研究は、複数の独立して訓練されたモデルをマージして、共同トレーニングのために生データを収集する代わりにMLLを実行する。
既存のモデルマージスキームの表現分布を可視化することにより、マージモデルはしばしば表現バイアスのジレンマに悩まされる。
論文 参考訳(メタデータ) (2024-02-05T03:39:39Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。