論文の概要: Masked Gated Linear Unit
- arxiv url: http://arxiv.org/abs/2506.23225v1
- Date: Sun, 29 Jun 2025 13:16:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.780698
- Title: Masked Gated Linear Unit
- Title(参考訳): 仮設ゲート式リニアユニット
- Authors: Yukito Tajima, Nakamasa Inoue, Yusuke Sekikawa, Ikuro Sato, Rio Yokota,
- Abstract要約: Masked Gated Linear Units (MGLU) は、GLUの新しいファミリーであり、効率的なカーネル実装である。
FlashMGLUは、単純なPyTorch MGLUよりも19.7$times$推論タイムで高速化される。
実験では、SwiGLUはSwiGLUベースラインの下流精度をマッチング(あるいは超える)しながら、メモリの利点を保っている。
- 参考スコア(独自算出の注目度): 19.572409861877116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gated Linear Units (GLUs) have become essential components in the feed-forward networks of state-of-the-art Large Language Models (LLMs). However, they require twice as many memory reads compared to feed-forward layers without gating, due to the use of separate weight matrices for the gate and value streams. To address this bottleneck, we introduce Masked Gated Linear Units (MGLUs), a novel family of GLUs with an efficient kernel implementation. The core contribution of MGLUs include: (1) the Mixture of Element-wise Gating (MoEG) architecture that learns multiple binary masks, each determining gate or value assignments at the element level on a single shared weight matrix resulting in reduced memory transfer, and (2) FlashMGLU, a hardware-friendly kernel that yields up to a 19.7 $\times$ inference-time speed-up over a naive PyTorch MGLU and is 47% more memory-efficient and 34% faster than standard GLUs despite added architectural complexity on an RTX5090 GPU. In LLM experiments, the Swish-activated variant SwiMGLU preserves its memory advantages while matching - or even surpassing - the downstream accuracy of the SwiGLU baseline.
- Abstract(参考訳): GLU (Gated Linear Units) は、最先端のLarge Language Models (LLMs) のフィードフォワードネットワークにおいて重要なコンポーネントとなっている。
しかし、ゲートとバリューストリームに別々の重み行列を使用するため、ゲーティングなしでフィードフォワード層の2倍のメモリ読み込みが必要になる。
このボトルネックに対処するために,効率的なカーネル実装を備えた新しいGLUファミリーであるMasked Gated Linear Units (MGLUs)を紹介する。
MGLUのコアコントリビューションは、(1) 複数のバイナリマスクを学習する要素ワイドゲーティング(MoEG)アーキテクチャ、(2) RTX5090 GPUにアーキテクチャ上の複雑さが加えられたにもかかわらず、ハードウェアフレンドリーなカーネルであるFlashMGLU、(2) PyTorch MGLUよりも19.7$\times$推論タイムスピードアップし、標準のGLUよりも47%高速で、標準のGLUよりも34%高速である。
LLM実験では、SwiGLUはSwiGLUベースラインの下流の精度をマッチング(あるいは超える)しながら、そのメモリ優位性を保っている。
関連論文リスト
- Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - Distributed Out-of-Memory NMF on CPU/GPU Architectures [1.0051474951635875]
本稿では,HPCシステムに対する非負行列分解(NMF)アルゴリズムのメモリ外実装を提案する。
ベンチマークの結果、CPUベースのNMFkよりもGPUを使用した新しい実装により、32Xから76倍のスピードアップが大幅に改善された。
論文 参考訳(メタデータ) (2022-02-19T03:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。