論文の概要: Effective and Parameter-Efficient Reusing Fine-Tuned Models
- arxiv url: http://arxiv.org/abs/2310.01886v1
- Date: Tue, 3 Oct 2023 08:39:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 16:56:38.702346
- Title: Effective and Parameter-Efficient Reusing Fine-Tuned Models
- Title(参考訳): ファインチューニングモデルの有効性とパラメータ効率
- Authors: Weisen Jiang and Baijiong Lin and Han Shi and Yu Zhang and and Zhenguo
Li and James T. Kwok
- Abstract要約: 本稿では, PERU(Reusing)ファインチューニングモデルに対する効率的な手法を提案する。
PerU-FFTとPERU-LoRAは、既存の再利用モデル手法よりも大きなマージンで優れている。
- 参考スコア(独自算出の注目度): 65.7197237630917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many pre-trained large-scale models provided online have become highly
effective in transferring to downstream tasks. At the same time, various
task-specific models fine-tuned on these pre-trained models are available
online for public use. In practice, as collecting task-specific data is
labor-intensive and fine-tuning the large pre-trained models is computationally
expensive, one can reuse task-specific finetuned models to deal with downstream
tasks. However, using a model per task causes a heavy burden on storage and
serving. Recently, many training-free and parameter-efficient methods have been
proposed for reusing multiple fine-tuned task-specific models into a single
multi-task model. However, these methods exhibit a large accuracy gap compared
with using a fine-tuned model per task. In this paper, we propose
Parameter-Efficient methods for ReUsing (PERU) fine-tuned models. For reusing
Fully Fine-Tuned (FFT) models, we propose PERU-FFT by injecting a sparse task
vector into a merged model by magnitude pruning. For reusing LoRA fine-tuned
models, we propose PERU-LoRA use a lower-rank matrix to approximate the LoRA
matrix by singular value decomposition. Both PERUFFT and PERU-LoRA are
training-free. Extensive experiments conducted on computer vision and natural
language process tasks demonstrate the effectiveness and parameter-efficiency
of the proposed methods. The proposed PERU-FFT and PERU-LoRA outperform
existing reusing model methods by a large margin and achieve comparable
performance to using a fine-tuned model per task.
- Abstract(参考訳): オンラインで提供される多くの事前訓練された大規模モデルは、下流タスクへの転送に非常に効果的である。
同時に、これらの事前訓練されたモデルに微調整された様々なタスク特化モデルがオンラインで公開されている。
実際、タスク固有のデータの収集は労働集約的であり、大きな事前学習されたモデルには計算コストがかかるため、ダウンストリームタスクを扱うためにタスク固有の微調整モデルを再利用することができる。
しかし、1つのタスクにモデルを使用することで、ストレージとサービスに重荷がかかる。
近年,複数の微調整タスク固有モデルを単一マルチタスクモデルに再利用するために,学習自由かつパラメータ効率のよい多くの手法が提案されている。
しかし,これらの手法はタスク毎の微調整モデルに比べて精度の差が大きい。
本稿では,パラメータ効率のよい再使用(PERU)モデルを提案する。
完全細調整(FFT)モデルを再利用するために,スパースタスクベクトルを大まかにプラニングすることでPERU-FFTを提案する。
LoRA微調整モデルを再利用するために,低ランク行列を用いて特異値分解によりLoRA行列を近似するPERU-LoRAを提案する。
PERUFFTとPERU-LoRAはどちらも無トレーニングである。
コンピュータビジョンと自然言語処理タスクに関する広範な実験により,提案手法の有効性とパラメータ効率が実証された。
提案したPERU-FFTとPERU-LoRAは、既存の再利用モデル手法を大きなマージンで上回り、タスク毎の微調整モデルと同等の性能を達成する。
関連論文リスト
- VANER: Leveraging Large Language Model for Versatile and Adaptive Biomedical Named Entity Recognition [3.4923338594757674]
大型言語モデル(LLM)は、様々な種類のエンティティを抽出できるモデルを訓練するために使用することができる。
本稿では,オープンソースのLLM LLaMA2をバックボーンモデルとして利用し,異なるタイプのエンティティとデータセットを区別するための具体的な命令を設計する。
我々のモデルVANERは、パラメータの小さな分割で訓練され、従来のLLMモデルよりも大幅に優れており、LLMをベースとしたモデルとして初めて、従来の最先端のBioNERシステムの大部分を上回りました。
論文 参考訳(メタデータ) (2024-04-27T09:00:39Z) - Model Composition for Multimodal Large Language Models [73.70317850267149]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Representation Surgery for Multi-Task Model Merging [60.52665037255662]
マルチタスク学習(MTL)は、複数のタスクから情報を統一されたバックボーンに圧縮し、計算効率と一般化を改善する。
最近の研究は、複数の独立して訓練されたモデルをマージして、共同トレーニングのために生データを収集する代わりにMLLを実行する。
既存のモデルマージスキームの表現分布を可視化することにより、マージモデルはしばしば表現バイアスのジレンマに悩まされる。
論文 参考訳(メタデータ) (2024-02-05T03:39:39Z) - A Framework to Implement 1+N Multi-task Fine-tuning Pattern in LLMs
Using the CGC-LORA Algorithm [7.521690071464451]
大規模言語モデル (LLM) において, 1 + N mutli-task の微調整パターンを実装する統一フレームワークを提案する。
我々の研究は、MPL(CGC)とPEFT(LoRA)の両方の利点を享受することを目的としている。
論文 参考訳(メタデータ) (2024-01-22T07:58:31Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。
提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。
我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文 参考訳(メタデータ) (2023-10-07T08:55:54Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [72.2068175246167]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Multipath agents for modular multitask ML systems [2.579908688646812]
提案した研究は、複数のメソッドを異なるエージェントとして定義できる新しい方法論を紹介した。
エージェントは、与えられたタスクに対するMLモデルの生成と改善のために協力し、競争することができる。
論文 参考訳(メタデータ) (2023-02-06T11:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。