論文の概要: PERFT: Parameter-Efficient Routed Fine-Tuning for Mixture-of-Expert Model
- arxiv url: http://arxiv.org/abs/2411.08212v1
- Date: Tue, 12 Nov 2024 22:03:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:47.095496
- Title: PERFT: Parameter-Efficient Routed Fine-Tuning for Mixture-of-Expert Model
- Title(参考訳): PERFT:Mixture-of-Expertモデルのためのパラメータ効率の良いルートファインタニング
- Authors: Yilun Liu, Yunpu Ma, Shuo Chen, Zifeng Ding, Bailan He, Zhen Han, Volker Tresp,
- Abstract要約: Mixture-of-Experts (MoE) は、リソース利用を改善することでトランスフォーマーをスケールするための強力なアプローチとして登場した。
PEFT(Efficient Fine-Tuning)に関する最近の研究から着想を得て,PEFTモジュールを直接MoE機構に統合するための統一フレームワークを提案する。
- 参考スコア(独自算出の注目度): 30.620582168350698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Mixture-of-Experts (MoE) paradigm has emerged as a powerful approach for scaling transformers with improved resource utilization. However, efficiently fine-tuning MoE models remains largely underexplored. Inspired by recent works on Parameter-Efficient Fine-Tuning (PEFT), we present a unified framework for integrating PEFT modules directly into the MoE mechanism. Aligning with the core principles and architecture of MoE, our framework encompasses a set of design dimensions including various functional and composition strategies. By combining design choices within our framework, we introduce Parameter-Efficient Routed Fine-Tuning (PERFT) as a flexible and scalable family of PEFT strategies tailored for MoE models. Extensive experiments on adapting OLMoE-1B-7B and Mixtral-8$\times$7B for commonsense and arithmetic reasoning tasks demonstrate the effectiveness, scalability, and intriguing dynamics of PERFT. Additionally, we provide empirical findings for each specific design choice to facilitate better application of MoE and PEFT.
- Abstract(参考訳): Mixture-of-Experts(MoE)パラダイムは、リソース利用を改善することでトランスフォーマーをスケールするための強力なアプローチとして登場した。
しかし、効率よく微調整できるMoEモデルは、まだほとんど探索されていない。
パラメータ効率のよいファインチューニング(PEFT)に関する最近の研究から着想を得て,PEFTモジュールを直接MoE機構に統合するための統一的なフレームワークを提案する。
私たちのフレームワークは、MoEの中核となる原則とアーキテクチャに従って、様々な機能や構成戦略を含む設計の側面を包含しています。
提案するフレームワーク内での設計選択を組み合わせることで,MOEモデルに適したフレキシブルでスケーラブルなPEFT戦略のファミリーとして,パラメータ効率の良いルートファインチューニング(PERFT)を導入する。
OLMoE-1B-7BとMixtral-8$\times$7Bをコモンセンスおよび算術的推論タスクに適用する大規模な実験は、PERFTの有効性、スケーラビリティ、および興味深い力学を実証している。
さらに,MoEとPEFTのより良い適用を促進するために,それぞれの設計選択に対して経験的な知見を提供する。
関連論文リスト
- S'MoRE: Structural Mixture of Residual Experts for LLM Fine-tuning [17.579948649237497]
我々は,LoRAの効率とMoEの柔軟性をシームレスに統合する新しいフレームワークであるResidual Experts (S'MoRE)を提案する。
具体的には、S'MoREはエキスパートウェイトを階層的に低ランクに分解し、多層構造に相互接続した様々な順序の残基を生成する。
我々はS'MoREが従来のMoE(Mixture-of-LoRA)の「構造的柔軟性」を指数的順序で改善することを証明する。
論文 参考訳(メタデータ) (2025-04-08T20:54:00Z) - Beyond Standard MoE: Mixture of Latent Experts for Resource-Efficient Language Models [10.623996218106564]
本稿では,特定の専門家の共有潜在空間へのマッピングを容易にする新しいパラメータ化手法を提案する。
すべてのエキスパート演算は、体系的に2つの主成分に分解される: 共有射影を低次元の潜在空間に分割し、その後専門家固有の変換を行う。
この分解されたアプローチは、パラメータ数と計算要求を大幅に減少させる。
論文 参考訳(メタデータ) (2025-03-29T14:35:34Z) - MoFE: Mixture of Frozen Experts Architecture [0.3959905439285648]
MoFEアーキテクチャは、微細チューニング(PEFT)とMixture of Experts(MoE)アーキテクチャを統合し、トレーニング効率とモデルのスケーラビリティを向上させる。
MoEフレームワーク内のFeed Forward Networkレイヤを凍結することにより、トレーニング可能なパラメータの数を大幅に削減し、トレーニング効率を向上させると同時に、エキスパートモデルからの効果的な知識伝達を可能にする。
我々は、性能と効率のトレードオフを評価し、MoFEを他のPEFT手法と比較し、構成モデルにおけるドメインの専門知識の影響を評価し、最適なトレーニング戦略を決定する実験を行う。
論文 参考訳(メタデータ) (2025-03-09T07:24:36Z) - Joint MoE Scaling Laws: Mixture of Experts Can Be Memory Efficient [4.34286535607654]
我々は,高密度モデルとMoEモデルに対する共同スケーリング法則を提案し,アクティブパラメータ数,データセットサイズ,エキスパート数といった重要な要素を取り入れた。
驚くべきことに、従来の知恵とは対照的に、MoEモデルは高密度モデルよりもメモリ効率が高いことが示される。
論文 参考訳(メタデータ) (2025-02-07T18:55:38Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - Layer-wise Importance Matters: Less Memory for Better Performance in Parameter-efficient Fine-tuning of Large Language Models [19.163639128631534]
Importance-Aware Sparse Tuning (IST) は、様々なPEFTメソッドと互換性があり、層ごとに動作する。
ISTはPEFTモジュールで選択したレイヤを動的に更新し、メモリ要求を減らした。
論文 参考訳(メタデータ) (2024-10-15T16:53:26Z) - MoPEFT: A Mixture-of-PEFTs for the Segment Anything Model [0.0]
The Mixture-of-PEFTs method (MoPEFT) is inspired by traditional Mixture-of-Experts (MoE) methodologies and use for fine-tuning SAM。
我々のMoPEFTフレームワークは3つの異なるPEFT技法をサブモジュールとして組み込んでおり、与えられたデータタスク設定に適したものを動的に起動する。
我々は,Segment Anything Model を用いて提案手法を検証し,MoPEFT が MESS ベンチマークにおける他の微調整手法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-05-01T03:15:28Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Efficient Deweather Mixture-of-Experts with Uncertainty-aware
Feature-wise Linear Modulation [44.43376913419967]
本稿では,専門家間での重み共有が可能なMixture-of-Experts(MoE)アーキテクチャを提案する。
MoFMEは、単一の共有専門家ブロック上で学習可能なアクティベーション変調を通じて、暗黙的に複数の専門家をインスタンス化する。
実験の結果,MoFMEは画像修復品質の基準線を0.1-0.2dBで上回ることがわかった。
論文 参考訳(メタデータ) (2023-12-27T15:23:37Z) - Parameter Efficient Fine-tuning via Cross Block Orchestration for Segment Anything Model [81.55141188169621]
PEFTにクロスブロックオーケストレーション機構を組み、SAM(Segment Anything Model)の様々な下流シナリオへの適応を可能にする。
本稿では,超複素層から重みが生じる線形射影ヘッドを導入するブロック内拡張モジュールを提案する。
提案手法は,約1Kのパラメータのみを付加した新規シナリオにおいて,セグメンテーション性能を大幅に向上させる。
論文 参考訳(メタデータ) (2023-11-28T11:23:34Z) - Non-Intrusive Adaptation: Input-Centric Parameter-efficient Fine-Tuning
for Versatile Multimodal Modeling [42.42235704360381]
大規模言語モデル(LLM)と視覚言語モデル(VLM)は、幅広いタスクにおいて優れた性能を示す。
これらの大規模化により、関心のあるタスクを前提とした、完全に専門的なモデルへの適応と展開が不可能になる。
本研究では,AdaLinkを,競合性能を実現する非侵入型PEFT技術として記述する。
論文 参考訳(メタデータ) (2023-10-18T16:43:08Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - AutoPEFT: Automatic Configuration Search for Parameter-Efficient
Fine-Tuning [77.61565726647784]
ニューラルアーキテクチャ検索の進歩により,自動PEFT設定選択のためのAutoPEFTを提案する。
本稿では,AutoPEFTが検出した構成が既存のPEFT法よりも大幅に優れており,FFTと同等かそれ以上であることを示す。
論文 参考訳(メタデータ) (2023-01-28T08:51:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。