論文の概要: MoDE: Effective Multi-task Parameter Efficient Fine-Tuning with a Mixture of Dyadic Experts
- arxiv url: http://arxiv.org/abs/2408.01505v1
- Date: Fri, 2 Aug 2024 18:05:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 19:49:47.543597
- Title: MoDE: Effective Multi-task Parameter Efficient Fine-Tuning with a Mixture of Dyadic Experts
- Title(参考訳): MoDE: Dyadic Experts を併用したマルチタスクパラメータ効率の良いファインチューニング
- Authors: Lin Ning, Harsh Lara, Meiqi Guo, Abhinav Rastogi,
- Abstract要約: Mixture of Dyadic Experts (MoDE) は効率的なマルチタスク適応のための新しい設計である。
我々の設計はよりきめ細かい混合を可能にし、それによってモデルの複数のタスクを共同で処理する能力を高めます。
- 参考スコア(独自算出の注目度): 6.245113492272563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient fine-tuning techniques like Low-Rank Adaptation (LoRA) have revolutionized the adaptation of large language models (LLMs) to diverse tasks. Recent efforts have explored mixtures of LoRA modules for multi-task settings. However, our analysis reveals redundancy in the down-projection matrices of these architectures. This observation motivates our proposed method, Mixture of Dyadic Experts (MoDE), which introduces a novel design for efficient multi-task adaptation. This is done by sharing the down-projection matrix across tasks and employing atomic rank-one adapters, coupled with routers that allow more sophisticated task-level specialization. Our design allows for more fine-grained mixing, thereby increasing the model's ability to jointly handle multiple tasks. We evaluate MoDE on the Supernatural Instructions (SNI) benchmark consisting of a diverse set of 700+ tasks and demonstrate that it outperforms state-of-the-art multi-task parameter-efficient fine-tuning (PEFT) methods, without introducing additional parameters. Our findings contribute to a deeper understanding of parameter efficiency in multi-task LLM adaptation and provide a practical solution for deploying high-performing, lightweight models.
- Abstract(参考訳): Low-Rank Adaptation (LoRA)のようなパラメータ効率のよい微調整技術は、大規模言語モデル(LLM)の多様なタスクへの適応に革命をもたらした。
近年、マルチタスク設定のためのLoRAモジュールの混合について検討している。
しかし,本研究では,これらのアーキテクチャのダウンプロジェクション行列の冗長性を明らかにした。
この観察は,提案手法であるMixture of Dyadic Experts (MoDE) を動機付け,効率的なマルチタスク適応のための新しい設計を提案する。
これはタスク間でダウンプロジェクション行列を共有し、より高度なタスクレベルの特殊化を可能にするルータとアトミックなランクワンアダプタを併用することで実現される。
我々の設計はよりきめ細かい混合を可能にし、それによってモデルの複数のタスクを共同で処理する能力を高めます。
我々は,700以上のタスクからなるSNI(Super Natural Instructions)ベンチマーク上でMoDEを評価し,さらにパラメータを追加することなく,最先端のマルチタスクパラメータ効率の微調整(PEFT)手法よりも優れていることを示した。
本研究は,マルチタスクLLM適応におけるパラメータ効率のより深い理解に寄与し,高性能で軽量なモデルを展開するための実用的なソリューションを提供する。
関連論文リスト
- Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [54.65520214291653]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - When MOE Meets LLMs: Parameter Efficient Fine-tuning for Multi-task Medical Applications [57.342772288710044]
我々はMOELoRAと呼ばれるマルチタスク医療応用のためのパラメータ効率の良い微調整フレームワークを提案する。
MOEとLoRAを統一するために、トレーニング可能なパラメータとして複数の専門家を考案し、トレーニング可能なパラメータの小さなサイズを保持するために、各専門家は2つの低ランク行列から構成される。
マルチタスク医療データセットを用いて実験を行い、MOELoRAが既存のパラメータを効率よく微調整する手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-21T17:18:09Z) - Attentional Mixtures of Soft Prompt Tuning for Parameter-efficient
Multi-task Knowledge Sharing [53.399742232323895]
ATTEMPTは、新しいモジュラー、マルチタスク、パラメータ効率の言語モデル(LM)チューニングアプローチである。
異なるタスク間で伝達される知識をソフトプロンプトの混合によって組み合わせ、元のLMをそのまま維持する。
パラメータ効率(例えば、微調整よりも1,600倍少ないパラメータを更新)であり、マルチタスク学習と柔軟な拡張を可能にする。
論文 参考訳(メタデータ) (2022-05-24T10:48:33Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Rethinking Hard-Parameter Sharing in Multi-Task Learning [20.792654758645302]
マルチタスク学習(MTL)におけるハードパラメータ共有により、タスクはモデルのパラメータの一部を共有でき、ストレージコストを低減し、予測精度を向上させることができる。
共通の共有プラクティスは、タスク毎に別々のトップレイヤを使用しながら、タスク間でディープニューラルネットワークのボトムレイヤを共有することだ。
異なるボトム層パラメータを使用することで、一般的なプラクティスよりも大幅にパフォーマンスが向上する可能性がある。
論文 参考訳(メタデータ) (2021-07-23T17:26:40Z) - Small Towers Make Big Differences [59.243296878666285]
マルチタスク学習は、複数の機械学習タスクを同時に解決することを目的としている。
マルチタスク学習問題に対する優れた解法は、Paretoの最適性に加えて一般化可能であるべきである。
本稿では,マルチタスクモデルのためのパラメータ下自己助詞の手法を提案し,両世界のベストを達成した。
論文 参考訳(メタデータ) (2020-08-13T10:45:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。