Fugu-MT 論文翻訳(概要): BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts

論文の概要: BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts

arxiv url: http://arxiv.org/abs/2408.08274v1
Date: Thu, 15 Aug 2024 17:19:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-16 13:16:25.661694
Title: BAM! Just Like That: Simple and Efficient Parameter Upcycling for Mixture of Experts
Title（参考訳）: BAM! まさにそのように - 専門家の混ざり合わせのためのシンプルで効率的なパラメータアップサイクル
Authors: Qizhen Zhang, Nikolas Gritsch, Dwaraknath Gnaneshwar, Simon Guo, David Cairuz, Bharat Venkitesh, Jakob Foerster, Phil Blunsom, Sebastian Ruder, Ahmet Ustun, Acyr Locatelli,
Abstract要約: 大規模な体制でゼロからMoEを訓練することは違法に高価である。本稿では,BAM(Branch-Attend-Mix)を提案する。 5億9000万から20億のパラメータのシードモデルに関する実験では、BAMがパープレキシティとダウンストリームのタスクパフォーマンスの両方でベースラインを超えていることが示されている。
参考スコア（独自算出の注目度）: 41.83123857437985
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Mixture of Experts (MoE) framework has become a popular architecture for large language models due to its superior performance over dense models. However, training MoEs from scratch in a large-scale regime is prohibitively expensive. Existing methods mitigate this by pre-training multiple dense expert models independently and using them to initialize an MoE. This is done by using experts' feed-forward network (FFN) to initialize the MoE's experts while merging other parameters. However, this method limits the reuse of dense model parameters to only the FFN layers, thereby constraining the advantages when "upcycling" these models into MoEs. We propose BAM (Branch-Attend-Mix), a simple yet effective method that addresses this shortcoming. BAM makes full use of specialized dense models by not only using their FFN to initialize the MoE layers but also leveraging experts' attention parameters fully by initializing them into a soft-variant of Mixture of Attention (MoA) layers. We explore two methods for upcycling attention parameters: 1) initializing separate attention experts from dense models including all attention parameters for the best model performance; and 2) sharing key and value parameters across all experts to facilitate for better inference efficiency. To further improve efficiency, we adopt a parallel attention transformer architecture to MoEs, which allows the attention experts and FFN experts to be computed concurrently. Our experiments on seed models ranging from 590 million to 2 billion parameters demonstrate that BAM surpasses baselines in both perplexity and downstream task performance, within the same computational and data constraints.
Abstract（参考訳）: Mixture of Experts (MoE)フレームワークは、高密度モデルよりも優れたパフォーマンスのため、大規模言語モデルの一般的なアーキテクチャとなっている。しかし、大規模な体制でゼロからMoEを訓練することは違法に高価である。既存の方法は、複数の密集したエキスパートモデルを個別にトレーニングし、それらをMoEを初期化することで、これを緩和する。これは専門家のフィードフォワードネットワーク(FFN)を使用して、他のパラメータをマージしながらMoEの専門家を初期化する。しかし、この手法は高密度モデルパラメータの再利用をFFN層のみに制限し、それによってこれらのモデルをMoEに"アップサイクル"する場合の利点を制約する。本稿では,BAM(Branch-Attend-Mix)を提案する。 BAMは、FFNを使ってMoE層を初期化するだけでなく、専門家の注意パラメータをソフトなMixture of Attention (MoA)層に初期化する。注意パラメータを上昇させる2つの方法を探る。 1) 最高のモデル性能のためのすべての注意パラメータを含む密集モデルから注意専門家を分離する。 2) 推論効率を向上させるために、すべての専門家間でキーとバリューパラメータを共有する。効率をさらに向上するため、我々はMoEsに並列アテンショントランスフォーマーアーキテクチャを導入し、アテンションの専門家とFFNの専門家を並列に計算できるようにした。 5億9000万から20億のパラメータのシードモデルに対する実験により、BAMは同じ計算とデータ制約の中で、複雑度と下流のタスクパフォーマンスの両方においてベースラインを超えていることが示された。

関連論文リスト

Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models [35.617468386609254]
Mixture-of-Experts (MoE) は、推論中に専門家がわずかに活性化された大きな言語モデルの効率的なスケーリングを可能にする。多くのシステムでは,専門家のサブセットを高速メモリにキャッシュする*専門家オフロード*を導入している。各層にMoEを適用し、共有専門家を使用しないモデルは、最も高い局所的なルーティング一貫性を示す。
論文参考訳（メタデータ） (2025-05-21T22:13:09Z)
CMoE: Fast Carving of Mixture-of-Experts for Efficient LLM Inference [33.871080938643566]
大規模言語モデル(LLM)はモデルパラメータのスケーリングによって素晴らしいパフォーマンスを達成するが、これはかなりの推論オーバーヘッドを伴う。我々は,高密度モデルからMoEモデルを効率的に彫る新しいフレームワークであるCMoEを提案する。 CMoEは、効率的なエキスパートグループ化と軽量適応によって、優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-02-06T14:05:30Z)
HOBBIT: A Mixed Precision Expert Offloading System for Fast MoE Inference [54.40808356999408]
フレキシブルで効率的なMoE推論を実現するための混合精度専門家オフロードシステムHOBBITを提案する。キーとなる洞察は、重要でないキャッシュミスの専門家を低い精度で動的に置き換えることで、専門家のロード遅延を大幅に削減できるということです。 HOBBITは、最先端のMoEオフロードシステムと比較して、デコードで最大9.93倍のスピードアップを達成する。
論文参考訳（メタデータ） (2024-11-03T04:25:46Z)
MoE++: Accelerating Mixture-of-Experts Methods with Zero-Computation Experts [63.67734699877724]
MoE++は、Feed-Forward Network(FFN)とゼロ計算の専門家を統合した、汎用的で異種なMoEフレームワークである。 MoE++は、1.1-2.1xのエキスパートの前方スループットを同じサイズのバニラのMoEモデルと比較すると、パフォーマンスが向上する。
論文参考訳（メタデータ） (2024-10-09T18:01:27Z)
Diversifying the Expert Knowledge for Task-Agnostic Pruning in Sparse Mixture-of-Experts [75.85448576746373]
本稿では,モデルのパラメータ効率を向上させるために,類似の専門家をグループ化し,グループ化する方法を提案する。提案手法の有効性を3つの最先端MoEアーキテクチャを用いて検証する。評価の結果,本手法は自然言語タスクにおいて,他のモデルプルーニング手法よりも優れていることがわかった。
論文参考訳（メタデータ） (2024-07-12T17:25:02Z)
A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文参考訳（メタデータ） (2024-05-26T17:52:58Z)
Pushing Mixture of Experts to the Limit: Extremely Parameter Efficient MoE for Instruction Tuning [7.094820944028638]
我々は,MoEアーキテクチャと軽量専門家を組み合わせることで,極めてパラメータ効率の良いMoEを提案する。本手法は,従来のタスク知識に依存しないため,目に見えないタスクに一般化する。本研究は,厳密なパラメータ制約の下でも堅牢な性能を実現する能力を示す。
論文参考訳（メタデータ） (2023-09-11T13:31:00Z)
MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文参考訳（メタデータ） (2022-04-15T23:19:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。