論文の概要: SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention
- arxiv url: http://arxiv.org/abs/2312.07987v3
- Date: Mon, 30 Sep 2024 21:19:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 16:33:58.244279
- Title: SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention
- Title(参考訳): SwitchHead: 専門知識の混成によるトランスフォーマーの高速化
- Authors: Róbert Csordás, Piotr Piękos, Kazuki Irie, Jürgen Schmidhuber,
- Abstract要約: SwitchHeadはアテンション層に有効なMoE手法である。
我々の新しいMoEメカニズムにより、SwitchHeadは標準のTransformerの8倍の注意行列を計算できる。
SwitchHeadは44%の計算量と27%のメモリ使用量で標準モデルの難易度と一致している。
- 参考スコア(独自算出の注目度): 39.09650673080772
- License:
- Abstract: Despite many recent works on Mixture of Experts (MoEs) for resource-efficient Transformer language models, existing methods mostly focus on MoEs for feedforward layers. Previous attempts at extending MoE to the self-attention layer fail to match the performance of the parameter-matched baseline. Our novel SwitchHead is an effective MoE method for the attention layer that successfully reduces both the compute and memory requirements, achieving wall-clock speedup, while matching the language modeling performance of the baseline Transformer. Our novel MoE mechanism allows SwitchHead to compute up to 8 times fewer attention matrices than the standard Transformer. SwitchHead can also be combined with MoE feedforward layers, resulting in fully-MoE "SwitchAll" Transformers. For our 262M parameter model trained on C4, SwitchHead matches the perplexity of standard models with only 44% compute and 27% memory usage. Zero-shot experiments on downstream tasks confirm the performance of SwitchHead, e.g., achieving more than 3.5% absolute improvements on BliMP compared to the baseline with an equal compute resource.
- Abstract(参考訳): リソース効率のよいTransformer言語モデルのためのMixture of Experts(MoEs)に関する最近の多くの研究にもかかわらず、既存のメソッドは主にフィードフォワード層のためのMoEに焦点を当てている。
MoEを自己アテンション層に拡張しようとする以前の試みは、パラメータマッチングされたベースラインのパフォーマンスにマッチしなかった。
我々の新しいSwitchHeadは注目層に対する効果的なMoE手法であり、ベースライントランスフォーマーの言語モデリング性能に適合しながら、計算とメモリの双方の要求をうまく低減し、ウォールクロックの高速化を実現している。
我々の新しいMoEメカニズムにより、SwitchHeadは標準のTransformerの8倍の注意行列を計算できる。
SwitchHeadは、MoEフィードフォワード層と組み合わせて、完全なMoE "SwitchAll"変換を行うこともできる。
C4でトレーニングされた262Mパラメータモデルに対して、SwitchHeadは、標準的なモデルの複雑度と、わずか44%の計算と27%のメモリ使用量で一致します。
下流タスクにおけるゼロショット実験は、SwitchHeadの性能、例えば、同等の計算リソースを持つベースラインと比較して、BliMPの3.5%以上の絶対的な改善を達成する。
関連論文リスト
- Shrinking the Giant : Quasi-Weightless Transformers for Low Energy Inference [0.30104001512119216]
高速でエネルギー効率のよい推論モデルの構築は、様々なトランスフォーマーベースのアプリケーションを実現するために不可欠である。
拡張有限差分法によりLUTネットワークを直接学習する手法を構築した。
これにより、トランスベースのモデルに対する計算的でエネルギー効率の良い推論ソリューションが実現される。
論文 参考訳(メタデータ) (2024-11-04T05:38:56Z) - Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-09T08:50:18Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。
SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文 参考訳(メタデータ) (2024-04-04T15:23:14Z) - Memory-efficient Stochastic methods for Memory-based Transformers [3.360916255196531]
メモリベースのトランスは大量のメモリを必要とする可能性があり、非常に非効率である。
本稿では,メモリベーストランスのトレーニング効率を向上させるために,新しい2相トレーニング機構と新しい正規化手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T12:37:25Z) - AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for
Efficient Neural Machine Translation [104.0979785739202]
ニューラルネットワーク翻訳(NMT)タスクにおいて、Mixture-of-Expert(MoE)モデルが最先端のパフォーマンスを得た。
既存のMoEモデルは、ネットワーク全体に同じサイズの専門家が一様に配置される均質な設計を主に考慮している。
計算制約下での不均一なMoEを設計するためのフレームワークであるAutoMoEを開発した。
論文 参考訳(メタデータ) (2022-10-14T05:32:17Z) - Transformer with a Mixture of Gaussian Keys [31.91701434633319]
マルチヘッドアテンションは最先端のトランスフォーマーの背後にある原動力である。
Transformer-MGKは、トランスフォーマーの冗長なヘッドを、各ヘッドにキーの混合で置き換える。
従来のトランスフォーマーと比較して、Transformer-MGKはトレーニングと推論を加速し、パラメータが少なく、計算するFLOPも少ない。
論文 参考訳(メタデータ) (2021-10-16T23:43:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。