論文の概要: PERFT: Parameter-Efficient Routed Fine-Tuning for Mixture-of-Expert Model
- arxiv url: http://arxiv.org/abs/2411.08212v1
- Date: Tue, 12 Nov 2024 22:03:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:09:18.431813
- Title: PERFT: Parameter-Efficient Routed Fine-Tuning for Mixture-of-Expert Model
- Title(参考訳): PERFT:Mixture-of-Expertモデルのためのパラメータ効率の良いルートファインタニング
- Authors: Yilun Liu, Yunpu Ma, Shuo Chen, Zifeng Ding, Bailan He, Zhen Han, Volker Tresp,
- Abstract要約: Mixture-of-Experts (MoE) は、リソース利用を改善することでトランスフォーマーをスケールするための強力なアプローチとして登場した。
PEFT(Efficient Fine-Tuning)に関する最近の研究から着想を得て,PEFTモジュールを直接MoE機構に統合するための統一フレームワークを提案する。
- 参考スコア(独自算出の注目度): 30.620582168350698
- License:
- Abstract: The Mixture-of-Experts (MoE) paradigm has emerged as a powerful approach for scaling transformers with improved resource utilization. However, efficiently fine-tuning MoE models remains largely underexplored. Inspired by recent works on Parameter-Efficient Fine-Tuning (PEFT), we present a unified framework for integrating PEFT modules directly into the MoE mechanism. Aligning with the core principles and architecture of MoE, our framework encompasses a set of design dimensions including various functional and composition strategies. By combining design choices within our framework, we introduce Parameter-Efficient Routed Fine-Tuning (PERFT) as a flexible and scalable family of PEFT strategies tailored for MoE models. Extensive experiments on adapting OLMoE-1B-7B and Mixtral-8$\times$7B for commonsense and arithmetic reasoning tasks demonstrate the effectiveness, scalability, and intriguing dynamics of PERFT. Additionally, we provide empirical findings for each specific design choice to facilitate better application of MoE and PEFT.
- Abstract(参考訳): Mixture-of-Experts(MoE)パラダイムは、リソース利用を改善することでトランスフォーマーをスケールするための強力なアプローチとして登場した。
しかし、効率よく微調整できるMoEモデルは、まだほとんど探索されていない。
パラメータ効率のよいファインチューニング(PEFT)に関する最近の研究から着想を得て,PEFTモジュールを直接MoE機構に統合するための統一的なフレームワークを提案する。
私たちのフレームワークは、MoEの中核となる原則とアーキテクチャに従って、様々な機能や構成戦略を含む設計の側面を包含しています。
提案するフレームワーク内での設計選択を組み合わせることで,MOEモデルに適したフレキシブルでスケーラブルなPEFT戦略のファミリーとして,パラメータ効率の良いルートファインチューニング(PERFT)を導入する。
OLMoE-1B-7BとMixtral-8$\times$7Bをコモンセンスおよび算術的推論タスクに適用する大規模な実験は、PERFTの有効性、スケーラビリティ、および興味深い力学を実証している。
さらに,MoEとPEFTのより良い適用を促進するために,それぞれの設計選択に対して経験的な知見を提供する。
関連論文リスト
- Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models [19.163639128631534]
Importance-Aware Sparse Tuning (IST) は、様々なPEFTメソッドと互換性があり、層ごとに動作する。
ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。
論文 参考訳(メタデータ) (2024-10-15T16:53:26Z) - MoPEFT: A Mixture-of-PEFTs for the Segment Anything Model [0.0]
The Mixture-of-PEFTs method (MoPEFT) is inspired by traditional Mixture-of-Experts (MoE) methodologies and use for fine-tuning SAM。
我々のMoPEFTフレームワークは3つの異なるPEFT技法をサブモジュールとして組み込んでおり、与えられたデータタスク設定に適したものを動的に起動する。
我々は,Segment Anything Model を用いて提案手法を検証し,MoPEFT が MESS ベンチマークにおける他の微調整手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-05-01T03:15:28Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Efficient Deweather Mixture-of-Experts with Uncertainty-aware
Feature-wise Linear Modulation [44.43376913419967]
本稿では,専門家間での重み共有が可能なMixture-of-Experts(MoE)アーキテクチャを提案する。
MoFMEは、単一の共有専門家ブロック上で学習可能なアクティベーション変調を通じて、暗黙的に複数の専門家をインスタンス化する。
実験の結果,MoFMEは画像修復品質の基準線を0.1-0.2dBで上回ることがわかった。
論文 参考訳(メタデータ) (2023-12-27T15:23:37Z) - Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model [81.55141188169621]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。
本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。
提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-28T11:23:34Z) - Non-Intrusive Adaptation: Input-Centric Parameter-efficient Fine-Tuning
for Versatile Multimodal Modeling [42.42235704360381]
大規模言語モデル(LLM)と視覚言語モデル(VLM)は、幅広いタスクにおいて優れた性能を示す。
これらの大規模化により、関心のあるタスクを前提とした、完全に専門的なモデルへの適応と展開が不可能になる。
本研究では,AdaLinkを,競合性能を実現する非侵入型PEFT技術として記述する。
論文 参考訳(メタデータ) (2023-10-18T16:43:08Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - AutoPEFT: Automatic Configuration Search for Parameter-Efficient
Fine-Tuning [77.61565726647784]
ニューラルアーキテクチャ検索の進歩により,自動PEFT設定選択のためのAutoPEFTを提案する。
本稿では,AutoPEFTが検出した構成が既存のPEFT法よりも大幅に優れており,FFTと同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-01-28T08:51:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。