論文の概要: BYOM: Building Your Own Multi-Task Model For Free
- arxiv url: http://arxiv.org/abs/2310.01886v3
- Date: Sat, 3 Feb 2024 15:22:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 04:53:43.255024
- Title: BYOM: Building Your Own Multi-Task Model For Free
- Title(参考訳): BYOM: 独自のマルチタスクモデルを無償で開発
- Authors: Weisen Jiang and Baijiong Lin and Han Shi and Yu Zhang and Zhenguo Li
and James T. Kwok
- Abstract要約: BYOM-FFTは完全微調整モデルのマージ用であり、BYOM-LoRAはLoRA微調整モデルのマージ用である。
コンピュータビジョンと自然言語処理タスクの実験により、提案手法は既存のマージ手法よりも大きなマージ率で優れていることが示された。
- 参考スコア(独自算出の注目度): 69.63765907216442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, various merging methods have been proposed to build a multi-task
model from task-specific finetuned models without retraining. However, existing
methods suffer from a large performance deterioration compared to using
multiple task-specific models. In this paper, we propose to inject
task-specific knowledge into the merged model and design two
parameter-efficient approaches (BYOM-FFT and BYOM-LoRA) to Build Your Own
Multi-task model. BYOM-FFT is for merging fully finetuned models, while
BYOM-LoRA is for LoRA-finetuned models. Both methods are data-free and
computation-efficient. Extensive experiments on computer vision and natural
language processing tasks show that the proposed BYOM methods outperform
existing merging methods by a large margin. Moreover, BYOM-FFT is general and
can be integrated into existing merging methods to further boost performance.
- Abstract(参考訳): 近年,タスク固有の微調整モデルからマルチタスクモデルを構築するためのマージ手法が提案されている。
しかし、既存の手法は複数のタスク固有のモデルを使用する場合に比べて性能が大幅に低下する。
本稿では,統合モデルにタスク固有の知識を注入し,BYOM-FFTとBYOM-LoRAの2つのパラメータ効率のアプローチを設計する。
BYOM-FFTは完全微調整モデル、BYOM-LoRAはLoRA微調整モデルである。
どちらの手法もデータフリーで計算効率が良い。
コンピュータビジョンと自然言語処理タスクに関する大規模な実験により,提案手法は既存のマージ手法よりも大きなマージ性能を示した。
さらに、BYOM-FFTは汎用的であり、既存のマージ手法に統合してパフォーマンスをさらに向上することができる。
関連論文リスト
- Model Composition for Multimodal Large Language Models [73.70317850267149]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Representation Surgery for Multi-Task Model Merging [60.52665037255662]
マルチタスク学習(MTL)は、複数のタスクから情報を統一されたバックボーンに圧縮し、計算効率と一般化を改善する。
最近の研究は、複数の独立して訓練されたモデルをマージして、共同トレーニングのために生データを収集する代わりにMLLを実行する。
既存のモデルマージスキームの表現分布を可視化することにより、マージモデルはしばしば表現バイアスのジレンマに悩まされる。
論文 参考訳(メタデータ) (2024-02-05T03:39:39Z) - A Framework to Implement 1+N Multi-task Fine-tuning Pattern in LLMs
Using the CGC-LORA Algorithm [7.521690071464451]
大規模言語モデル (LLM) において, 1 + N mutli-task の微調整パターンを実装する統一フレームワークを提案する。
我々の研究は、MPL(CGC)とPEFT(LoRA)の両方の利点を享受することを目的としている。
論文 参考訳(メタデータ) (2024-01-22T07:58:31Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。
提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。
我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文 参考訳(メタデータ) (2023-10-07T08:55:54Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [72.2068175246167]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Multipath agents for modular multitask ML systems [2.579908688646812]
提案した研究は、複数のメソッドを異なるエージェントとして定義できる新しい方法論を紹介した。
エージェントは、与えられたタスクに対するMLモデルの生成と改善のために協力し、競争することができる。
論文 参考訳(メタデータ) (2023-02-06T11:57:45Z) - Rethinking Hard-Parameter Sharing in Multi-Task Learning [20.792654758645302]
マルチタスク学習(MTL)におけるハードパラメータ共有により、タスクはモデルのパラメータの一部を共有でき、ストレージコストを低減し、予測精度を向上させることができる。
共通の共有プラクティスは、タスク毎に別々のトップレイヤを使用しながら、タスク間でディープニューラルネットワークのボトムレイヤを共有することだ。
異なるボトム層パラメータを使用することで、一般的なプラクティスよりも大幅にパフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2021-07-23T17:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。