Fugu-MT 論文翻訳(概要): SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention

論文の概要: SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention

arxiv url: http://arxiv.org/abs/2312.07987v2
Date: Thu, 14 Dec 2023 06:35:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-15 11:21:15.647467
Title: SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention
Title（参考訳）: SwitchHead: 専門知識の混成によるトランスフォーマーの高速化
Authors: R\'obert Csord\'as, Piotr Pi\k{e}kos, Kazuki Irie, J\"urgen Schmidhuber
Abstract要約: 計算処理とメモリ要求の両方を削減し,ウォールクロックの高速化を実現する新しい方法であるSwitchHeadを提案する。 SwitchHeadは値と出力のプロジェクションにMixture-of-Experts (MoE) レイヤを使用し、標準のTransformerの4～8倍の注意が必要である。
参考スコア（独自算出の注目度）: 14.238528956017005
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The costly self-attention layers in modern Transformers require memory and compute quadratic in sequence length. Existing approximation methods usually underperform and fail to obtain significant speedups in practice. Here we present SwitchHead - a novel method that reduces both compute and memory requirements and achieves wall-clock speedup, while matching the language modeling performance of baseline Transformers with the same parameter budget. SwitchHead uses Mixture-of-Experts (MoE) layers for the value and output projections and requires 4 to 8 times fewer attention matrices than standard Transformers. Our novel attention can also be combined with MoE MLP layers, resulting in an efficient fully-MoE "SwitchAll" Transformer model. Our code is public.
Abstract（参考訳）: 現代のトランスフォーマーの高コストな自己アテンション層は、メモリとシーケンス長の2次計算を必要とする。既存の近似法は通常、性能が低く、実際はかなりのスピードアップを得られない。本稿では,ベースライントランスフォーマの言語モデル性能を同じパラメータの予算と一致させながら,計算量とメモリの要求量の両方を削減し,ウォールクロックの高速化を実現する新しい方法であるswitchheadを提案する。 SwitchHeadは値と出力のプロジェクションにMixture-of-Experts (MoE) レイヤを使用し、標準のTransformerの4～8倍の注意行列を必要とする。我々の新しい注目は、MoE MLP層と組み合わせることができるので、効率の良い完全MoE "SwitchAll"変換モデルが得られる。私たちのコードは公開されています。

関連論文リスト

JTok: On Token Embedding as another Axis of Scaling Law via Joint Token Self-modulation [46.64215658042213]
補助埋め込みテーブルから得られる変調ベクトルを用いてトランスフォーマー層を拡大するジョイント・トケン(JTok)とジョイント・トケン(JTok-M)の混合を導入する。これらのベクトルは、軽量な要素演算によってバックボーンを変調し、無視可能なFLOPのオーバーヘッドを発生させる。我々のアプローチは、検証損失を継続的に減らし、ダウンストリームタスクのパフォーマンスを大幅に改善します。
論文参考訳（メタデータ） (2026-01-31T16:15:18Z)
ResMoE: Space-efficient Compression of Mixture of Experts LLMs via Residual Restoration [61.579842548990754]
複数現象言語モデルのバックボーンであるMixture-of-Experts (MoE) Transformerは、各入力トークンに対して少数のモデルパラメータのみをアクティベートすることで、空間性を利用する。 ResMoEは、Wasserstein Barycenterを利用した革新的なMoE近似フレームワークで、共通の専門家(バリセンターエキスパート)を抽出し、このバリセンターエキスパートと元の専門家の間の残差を近似する。
論文参考訳（メタデータ） (2025-03-10T03:15:54Z)
UniMoD: Efficient Unified Multimodal Transformers with Mixture-of-Depths [17.68867710994329]
UniMoDは、各タスクに個別のルータを使用して、どのトークンをプルーニングすべきかを決定するタスク対応トークンプルーニング手法である。提案手法をShow-oとEmu3に適用し,Show-oでは約15%,Emu3では40%のトレーニングFLOPを削減した。
論文参考訳（メタデータ） (2025-02-10T13:52:52Z)
ConvMixFormer- A Resource-efficient Convolution Mixer for Transformer-based Dynamic Hand Gesture Recognition [5.311735227179715]
動的ハンドジェスチャのための新しいConvMixFormerアーキテクチャを探索し,考案する。提案手法は,NVidia Dynamic Hand Gesture と Briareo のデータセットを用いて評価する。我々のモデルは、単一およびマルチモーダル入力に対して最先端の結果を得た。
論文参考訳（メタデータ） (2024-11-11T16:45:18Z)
Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。 MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。 MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文参考訳（メタデータ） (2024-07-09T08:50:18Z)
An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。 8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文参考訳（メタデータ） (2024-06-12T05:25:15Z)
MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文参考訳（メタデータ） (2024-05-25T03:24:32Z)
SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。 SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文参考訳（メタデータ） (2024-04-04T15:23:14Z)
Memory-efficient Stochastic methods for Memory-based Transformers [3.360916255196531]
メモリベースのトランスは大量のメモリを必要とする可能性があり、非常に非効率である。本稿では,メモリベーストランスのトレーニング効率を向上させるために,新しい2相トレーニング機構と新しい正規化手法を提案する。
論文参考訳（メタデータ） (2023-11-14T12:37:25Z)
AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for Efficient Neural Machine Translation [104.0979785739202]
ニューラルネットワーク翻訳(NMT)タスクにおいて、Mixture-of-Expert(MoE)モデルが最先端のパフォーマンスを得た。既存のMoEモデルは、ネットワーク全体に同じサイズの専門家が一様に配置される均質な設計を主に考慮している。計算制約下での不均一なMoEを設計するためのフレームワークであるAutoMoEを開発した。
論文参考訳（メタデータ） (2022-10-14T05:32:17Z)
Transformer with a Mixture of Gaussian Keys [31.91701434633319]
マルチヘッドアテンションは最先端のトランスフォーマーの背後にある原動力である。 Transformer-MGKは、トランスフォーマーの冗長なヘッドを、各ヘッドにキーの混合で置き換える。従来のトランスフォーマーと比較して、Transformer-MGKはトレーニングと推論を加速し、パラメータが少なく、計算するFLOPも少ない。
論文参考訳（メタデータ） (2021-10-16T23:43:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。