論文の概要: Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules
- arxiv url: http://arxiv.org/abs/2407.06677v1
- Date: Tue, 9 Jul 2024 08:50:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 18:46:17.653385
- Title: Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules
- Title(参考訳): モジュールの混合:モジュールの動的アセンブリとしてのトランスフォーマーの再発明
- Authors: Zhuocheng Gong, Ang Lv, Jian Guan, Junxi Yan, Wei Wu, Huishuai Zhang, Minlie Huang, Dongyan Zhao, Rui Yan,
- Abstract要約: そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
- 参考スコア(独自算出の注目度): 96.21649779507831
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Is it always necessary to compute tokens from shallow to deep layers in Transformers? The continued success of vanilla Transformers and their variants suggests an undoubted "yes". In this work, however, we attempt to break the depth-ordered convention by proposing a novel architecture dubbed mixture-of-modules (MoM), which is motivated by an intuition that any layer, regardless of its position, can be used to compute a token as long as it possesses the needed processing capabilities. The construction of MoM starts from a finite set of modules defined by multi-head attention and feed-forward networks, each distinguished by its unique parameterization. Two routers then iteratively select attention modules and feed-forward modules from the set to process a token. The selection dynamically expands the computation graph in the forward pass of the token, culminating in an assembly of modules. We show that MoM provides not only a unified framework for Transformers and their numerous variants but also a flexible and learnable approach for reducing redundancy in Transformer parameterization. We pre-train various MoMs using OpenWebText. Empirical results demonstrate that MoMs, of different parameter counts, consistently outperform vanilla transformers on both GLUE and XSUM benchmarks. More interestingly, with a fixed parameter budget, MoM-large enables an over 38% increase in depth for computation graphs compared to GPT-2-large, resulting in absolute gains of 1.4 on GLUE and 1 on XSUM. On the other hand, MoM-large also enables an over 60% reduction in depth while involving more modules per layer, yielding a 16% reduction in TFLOPs and a 43% decrease in memory usage compared to GPT-2-large, while maintaining comparable performance.
- Abstract(参考訳): Transformerの浅い層から深い層へのトークンの計算は常に必要か?
バニラ変圧器とその変種の成功は、未確認の「はい」を示唆している。
しかし,本稿では,モジュールの混合(Mix-of-modules, MM)と呼ばれる新しいアーキテクチャを提案し,どの層でもその位置に関係なく,必要な処理能力を持っていさえいればトークンを計算できるという直感に動機づけられた,奥行きの規則を破ろうとする。
MoMの構成は、マルチヘッドアテンションとフィードフォワードネットワークによって定義された有限の加群から始まり、それぞれが固有のパラメータ化によって区別される。
2つのルータは、トークンを処理するために、セットから注意モジュールとフィードフォワードモジュールを反復的に選択する。
選択は、トークンの前方通過における計算グラフを動的に拡張し、モジュールの集合で終了する。
我々は、MoMがトランスフォーマーとその多数の変種のための統一されたフレームワークを提供するだけでなく、トランスフォーマーパラメータ化における冗長性を低減するための柔軟で学習可能なアプローチも提供することを示した。
OpenWebTextを使って様々なMOMを事前訓練します。
実験により,パラメータ数が異なるMoMがGLUEとXSUMのベンチマークで常にバニラ変圧器より優れていることが示された。
より興味深いことに、固定パラメータ予算により、MoM-largeはGPT-2-largeと比較して計算グラフの深さが38%以上増加し、GLUEでは1.4、XSUMでは1が絶対的に向上する。
一方、MoM-largeは、層ごとのモジュール数の増加を伴いながら、深さの60%以上を減らし、TFLOPの16%を減らし、GPT-2-largeに比べてメモリ使用量の43%を減らし、同等の性能を維持している。
関連論文リスト
- MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - HAFormer: Unleashing the Power of Hierarchy-Aware Features for Lightweight Semantic Segmentation [11.334990474402915]
本稿では,CNNの階層的特徴抽出能力とTransformerのグローバル依存性モデリング機能を組み合わせたモデルであるHAFormerを紹介する。
HAFormerは計算オーバーヘッドを最小限に抑え、コンパクトなモデルサイズで高性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T07:53:24Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention [39.09650673080772]
SwitchHeadはアテンション層に有効なMoE手法である。
我々の新しいMoEメカニズムにより、SwitchHeadは標準のTransformerの8倍の注意行列を計算できる。
SwitchHeadは44%の計算量と27%のメモリ使用量で標準モデルの難易度と一致している。
論文 参考訳(メタデータ) (2023-12-13T09:00:21Z) - Approximating Two-Layer Feedforward Networks for Efficient Transformers [15.793406740545024]
製品キーメモリ(PKM)を含む2層NNを近似する様々な手法を統合する汎用フレームワークを提案する。
WikiText-103とenwiki8の両方のデータセットで2つの異なるスケールで、当社のMoEがTransformer-XLと競合していることが示されています。
このことは、MoE が極めて大きな LM だけでなく、資源効率の高い LM にも関係していることを示している。
論文 参考訳(メタデータ) (2023-10-16T21:23:16Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - AutoMoE: Heterogeneous Mixture-of-Experts with Adaptive Computation for
Efficient Neural Machine Translation [104.0979785739202]
ニューラルネットワーク翻訳(NMT)タスクにおいて、Mixture-of-Expert(MoE)モデルが最先端のパフォーマンスを得た。
既存のMoEモデルは、ネットワーク全体に同じサイズの専門家が一様に配置される均質な設計を主に考慮している。
計算制約下での不均一なMoEを設計するためのフレームワークであるAutoMoEを開発した。
論文 参考訳(メタデータ) (2022-10-14T05:32:17Z) - BatchFormerV2: Exploring Sample Relationships for Dense Representation
Learning [88.82371069668147]
BatchFormerV2はより一般的なバッチトランスフォーマーモジュールである。
BatchFormerV2は、現在のDETRベースの検出方法を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-04-04T05:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。