論文の概要: Parameter Efficient Multi-task Model Fusion with Partial Linearization
- arxiv url: http://arxiv.org/abs/2310.04742v3
- Date: Mon, 11 Mar 2024 10:07:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 16:01:47.373620
- Title: Parameter Efficient Multi-task Model Fusion with Partial Linearization
- Title(参考訳): 部分線形化によるパラメータ効率的なマルチタスクモデル融合
- Authors: Anke Tang, Li Shen, Yong Luo, Yibing Zhan, Han Hu, Bo Du, Yixin Chen,
Dacheng Tao
- Abstract要約: パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。
提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。
我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
- 参考スコア(独自算出の注目度): 97.23530944186078
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pre-trained models have enabled significant advances in machine
learning and served as foundation components. Model fusion methods, such as
task arithmetic, have been proven to be powerful and scalable to incorporate
fine-tuned weights from different tasks into a multi-task model. However,
efficiently fine-tuning large pre-trained models on multiple downstream tasks
remains challenging, leading to inefficient multi-task model fusion. In this
work, we propose a novel method to improve multi-task fusion for
parameter-efficient fine-tuning techniques like LoRA fine-tuning. Specifically,
our approach partially linearizes only the adapter modules and applies task
arithmetic over the linearized adapters. This allows us to leverage the the
advantages of model fusion over linearized fine-tuning, while still performing
fine-tuning and inference efficiently. We demonstrate that our partial
linearization technique enables a more effective fusion of multiple tasks into
a single model, outperforming standard adapter tuning and task arithmetic
alone. Experimental results demonstrate the capabilities of our proposed
partial linearization technique to effectively construct unified multi-task
models via the fusion of fine-tuned task vectors. We evaluate performance over
an increasing number of tasks and find that our approach outperforms standard
parameter-efficient fine-tuning techniques. The results highlight the benefits
of partial linearization for scalable and efficient multi-task model fusion.
The code is available at https://github.com/tanganke/peta
- Abstract(参考訳): 大規模な事前訓練されたモデルは、機械学習の大幅な進歩を可能にし、基礎コンポーネントとして機能した。
タスク演算のようなモデル融合手法は、異なるタスクからの微調整された重みをマルチタスクモデルに組み込むための強力でスケーラブルであることが証明されている。
しかし、複数の下流タスクで事前学習された大規模モデルを効率的に微調整することは依然として困難であり、非効率なマルチタスクモデル融合に繋がる。
本研究では,LoRAファインチューニングのようなパラメータ効率の高いファインチューニング技術において,マルチタスク融合を改善する新しい手法を提案する。
具体的には,アダプタモジュールのみを部分的に線形化し,タスク演算を線形化アダプタに適用する。
これにより、線形化ファインチューニングよりもモデル融合の利点を有効活用できると同時に、ファインチューニングと推論を効率的に行うことができる。
我々の部分線形化手法は、複数のタスクをより効果的に単一のモデルに融合させ、標準のアダプタチューニングとタスク演算のみを性能良くすることを示した。
実験により,細調整タスクベクトルの融合による統合マルチタスクモデルを効果的に構築できる部分線形化手法の有効性が示された。
タスク数の増加に対して性能を評価し,本手法が標準パラメータ効率の微調整技術より優れていることを示す。
この結果は、スケーラブルで効率的なマルチタスクモデル融合に対する部分線形化の利点を強調している。
コードはhttps://github.com/tanganke/petaで入手できる。
関連論文リスト
- MoDE: Effective Multi-task Parameter Efficient Fine-Tuning with a Mixture of Dyadic Experts [6.245113492272563]
Mixture of Dyadic Experts (MoDE) は効率的なマルチタスク適応のための新しい設計である。
我々の設計はよりきめ細かい混合を可能にし、それによってモデルの複数のタスクを共同で処理する能力を高めます。
論文 参考訳(メタデータ) (2024-08-02T18:05:10Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - Prototype-based HyperAdapter for Sample-Efficient Multi-task Tuning [30.251155072822055]
Prototype-based HyperAdapter (PHA)は、アダプタチューニングとハイパーネットワーク上に構築された新しいフレームワークである。
サンプル効率のよい条件付きモジュールを生成するために、インスタンスdenseレトリバーとプロトタイプのハイパーネットワークを導入する。
PHAは、トレーニング可能なパラメータ、ストリームタスクの精度、サンプル効率のトレードオフをより良くすることを示す。
論文 参考訳(メタデータ) (2023-10-18T02:42:17Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Polyhistor: Parameter-Efficient Multi-Task Adaptation for Dense Vision
Tasks [36.34331439747556]
本稿では,複数のタスクにまたがる情報をトレーニング可能なパラメータで共有するために,PolyhistorとPolyhistor-Liteを提案する。
具体的には、Polyhistorは、トレーニング可能なパラメータの10%しか使用せず、最先端技術と比較して、競争精度を達成している。
論文 参考訳(メタデータ) (2022-10-07T00:25:02Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Conditionally Adaptive Multi-Task Learning: Improving Transfer Learning
in NLP Using Fewer Parameters & Less Data [5.689320790746046]
マルチタスク学習(MTL)ネットワークは、異なるタスク間で学習知識を伝達するための有望な方法として登場した。
しかし、MTLは、低リソースタスクへの過度な適合、破滅的な忘れ込み、負のタスク転送といった課題に対処しなければならない。
本稿では,新しい条件付アテンション機構とタスク条件付きモジュール群からなるトランスフォーマーアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-19T02:04:34Z) - HyperGrid: Efficient Multi-Task Transformers with Grid-wise Decomposable
Hyper Projections [96.64246471034195]
我々は,マルチタスク学習を効果的に行う新しいアプローチであるtextscHyperGridを提案する。
本手法は,微調整とマルチタスク学習のギャップを埋めるのに役立つ。
論文 参考訳(メタデータ) (2020-07-12T02:49:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。