論文の概要: SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention
- arxiv url: http://arxiv.org/abs/2312.07987v3
- Date: Mon, 30 Sep 2024 21:19:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 16:33:58.244279
- Title: SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention
- Title(参考訳): SwitchHead: 専門知識の混成によるトランスフォーマーの高速化
- Authors: Róbert Csordás, Piotr Piękos, Kazuki Irie, Jürgen Schmidhuber,
- Abstract要約: SwitchHeadはアテンション層に有効なMoE手法である。
我々の新しいMoEメカニズムにより、SwitchHeadは標準のTransformerの8倍の注意行列を計算できる。
SwitchHeadは44%の計算量と27%のメモリ使用量で標準モデルの難易度と一致している。
- 参考スコア(独自算出の注目度): 39.09650673080772
- License:
- Abstract: Despite many recent works on Mixture of Experts (MoEs) for resource-efficient Transformer language models, existing methods mostly focus on MoEs for feedforward layers. Previous attempts at extending MoE to the self-attention layer fail to match the performance of the parameter-matched baseline. Our novel SwitchHead is an effective MoE method for the attention layer that successfully reduces both the compute and memory requirements, achieving wall-clock speedup, while matching the language modeling performance of the baseline Transformer. Our novel MoE mechanism allows SwitchHead to compute up to 8 times fewer attention matrices than the standard Transformer. SwitchHead can also be combined with MoE feedforward layers, resulting in fully-MoE "SwitchAll" Transformers. For our 262M parameter model trained on C4, SwitchHead matches the perplexity of standard models with only 44% compute and 27% memory usage. Zero-shot experiments on downstream tasks confirm the performance of SwitchHead, e.g., achieving more than 3.5% absolute improvements on BliMP compared to the baseline with an equal compute resource.
- Abstract(参考訳): リソース効率のよいTransformer言語モデルのためのMixture of Experts(MoEs)に関する最近の多くの研究にもかかわらず、既存のメソッドは主にフィードフォワード層のためのMoEに焦点を当てている。
MoEを自己アテンション層に拡張しようとする以前の試みは、パラメータマッチングされたベースラインのパフォーマンスにマッチしなかった。
我々の新しいSwitchHeadは注目層に対する効果的なMoE手法であり、ベースライントランスフォーマーの言語モデリング性能に適合しながら、計算とメモリの双方の要求をうまく低減し、ウォールクロックの高速化を実現している。
我々の新しいMoEメカニズムにより、SwitchHeadは標準のTransformerの8倍の注意行列を計算できる。
SwitchHeadは、MoEフィードフォワード層と組み合わせて、完全なMoE "SwitchAll"変換を行うこともできる。
C4でトレーニングされた262Mパラメータモデルに対して、SwitchHeadは、標準的なモデルの複雑度と、わずか44%の計算と27%のメモリ使用量で一致します。
下流タスクにおけるゼロショット実験は、SwitchHeadの性能、例えば、同等の計算リソースを持つベースラインと比較して、BliMPの3.5%以上の絶対的な改善を達成する。
関連論文リスト
- An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - IceFormer: Accelerated Inference with Long-Sequence Transformers on CPUs [8.830921747658925]
既存のTransformerベースのモデルの1つの制限は、入力として非常に長いシーケンスを扱うことができないことである。
推論時に自己注意を加速する新しい手法を提案する。
我々は、元の事前訓練されたモデルの精度の98.6%から99.6%を維持しながら、2.73倍から7.63倍のスピードアップを示す。
論文 参考訳(メタデータ) (2024-05-05T08:18:42Z) - Efficient Language Modeling with Sparse all-MLP [53.81435968051093]
すべてのMLPは、言語モデリングにおいてTransformerと一致するが、下流タスクではまだ遅れている。
特徴量と入力量の両方でMoE(Mix-of-Experts)を混合したスパースオールMLPを提案する。
6つの下流タスクにおいて、ゼロショットのインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを上回る結果を得た。
論文 参考訳(メタデータ) (2022-03-14T04:32:19Z) - Block-Recurrent Transformers [49.07682696216708]
本稿では,逐次的にトランス層を適用するBlock-Recurrent Transformerを提案する。
我々のリカレントセルはシングルトークンではなくトークンブロック上で動作し、アクセルハードウェアを効率的に活用するためにブロック内の並列計算を利用する。
論文 参考訳(メタデータ) (2022-03-11T23:44:33Z) - Sparse is Enough in Scaling Transformers [12.561317511514469]
大規模なTransformerモデルは、多くのタスクにおいて印象的な結果をもたらすが、トレーニングや微調整は高価であり、デコードが遅いため、使用と研究が手に入らない。
本稿では,スパース層を用いた次世代トランスフォーマーモデルのファミリーであるScaling Transformerを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:53:46Z) - Transformer with a Mixture of Gaussian Keys [31.91701434633319]
マルチヘッドアテンションは最先端のトランスフォーマーの背後にある原動力である。
Transformer-MGKは、トランスフォーマーの冗長なヘッドを、各ヘッドにキーの混合で置き換える。
従来のトランスフォーマーと比較して、Transformer-MGKはトレーニングと推論を加速し、パラメータが少なく、計算するFLOPも少ない。
論文 参考訳(メタデータ) (2021-10-16T23:43:24Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Transformer-Based Deep Image Matching for Generalizable Person
Re-identification [114.56752624945142]
画像マッチングと距離学習にトランスフォーマーを適用する可能性について検討する。
視覚変換器 (ViT) とデコーダ付きバニラ変換器 (Vanilla Transformer) はイメージ・ツー・イメージ・アテンションの欠如により画像マッチングに適していないことがわかった。
そこで本研究では,クエリキーの類似性のみを保ちながら,ソフトマックス重み付けによる注意の完全な実装を省略する,単純化されたデコーダを提案する。
論文 参考訳(メタデータ) (2021-05-30T05:38:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。