論文の概要: Masked Gated Linear Unit
- arxiv url: http://arxiv.org/abs/2506.23225v1
- Date: Sun, 29 Jun 2025 13:16:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.780698
- Title: Masked Gated Linear Unit
- Title(参考訳): 仮設ゲート式リニアユニット
- Authors: Yukito Tajima, Nakamasa Inoue, Yusuke Sekikawa, Ikuro Sato, Rio Yokota,
- Abstract要約: Masked Gated Linear Units (MGLU) は、GLUの新しいファミリーであり、効率的なカーネル実装である。
FlashMGLUは、単純なPyTorch MGLUよりも19.7$times$推論タイムで高速化される。
実験では、SwiGLUはSwiGLUベースラインの下流精度をマッチング(あるいは超える)しながら、メモリの利点を保っている。
- 参考スコア(独自算出の注目度): 19.572409861877116
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gated Linear Units (GLUs) have become essential components in the feed-forward networks of state-of-the-art Large Language Models (LLMs). However, they require twice as many memory reads compared to feed-forward layers without gating, due to the use of separate weight matrices for the gate and value streams. To address this bottleneck, we introduce Masked Gated Linear Units (MGLUs), a novel family of GLUs with an efficient kernel implementation. The core contribution of MGLUs include: (1) the Mixture of Element-wise Gating (MoEG) architecture that learns multiple binary masks, each determining gate or value assignments at the element level on a single shared weight matrix resulting in reduced memory transfer, and (2) FlashMGLU, a hardware-friendly kernel that yields up to a 19.7 $\times$ inference-time speed-up over a naive PyTorch MGLU and is 47% more memory-efficient and 34% faster than standard GLUs despite added architectural complexity on an RTX5090 GPU. In LLM experiments, the Swish-activated variant SwiMGLU preserves its memory advantages while matching - or even surpassing - the downstream accuracy of the SwiGLU baseline.
- Abstract(参考訳): GLU (Gated Linear Units) は、最先端のLarge Language Models (LLMs) のフィードフォワードネットワークにおいて重要なコンポーネントとなっている。
しかし、ゲートとバリューストリームに別々の重み行列を使用するため、ゲーティングなしでフィードフォワード層の2倍のメモリ読み込みが必要になる。
このボトルネックに対処するために,効率的なカーネル実装を備えた新しいGLUファミリーであるMasked Gated Linear Units (MGLUs)を紹介する。
MGLUのコアコントリビューションは、(1) 複数のバイナリマスクを学習する要素ワイドゲーティング(MoEG)アーキテクチャ、(2) RTX5090 GPUにアーキテクチャ上の複雑さが加えられたにもかかわらず、ハードウェアフレンドリーなカーネルであるFlashMGLU、(2) PyTorch MGLUよりも19.7$\times$推論タイムスピードアップし、標準のGLUよりも47%高速で、標準のGLUよりも34%高速である。
LLM実験では、SwiGLUはSwiGLUベースラインの下流の精度をマッチング(あるいは超える)しながら、そのメモリ優位性を保っている。
関連論文リスト
- Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss [59.835032408496545]
本稿では, コントラスト損失計算を任意の小ブロックに分割するタイルベースの戦略を提案する。
分散システムの階層構造を活用するためのマルチレベルタイリング戦略も導入する。
SOTAメモリ効率のソリューションと比較すると、同等の速度を維持しながら、メモリの2桁の削減を実現している。
論文 参考訳(メタデータ) (2024-10-22T17:59:30Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - Mixture-of-Modules: Reinventing Transformers as Dynamic Assemblies of Modules [96.21649779507831]
そこで我々は,Mix-of-modules (MoM) と呼ばれる新しいアーキテクチャを提案する。
MoMは、任意の層がその位置に関係なくトークンを計算することができるという直感によって動機付けられている。
MoMはトランスフォーマーのための統一されたフレームワークを提供するだけでなく、冗長性を減らすための柔軟で学習可能なアプローチを提供する。
論文 参考訳(メタデータ) (2024-07-09T08:50:18Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - QUICK: Quantization-aware Interleaving and Conflict-free Kernel for
efficient LLM inference [9.031180368026071]
QUICKは、最先端の混合精度行列乗算カーネルの共有メモリバンク競合問題に対処する。
我々は、多くのNVIDIA GPUデバイス上で、AutoAWQの既存のカーネルを最大1.91倍のスピードアップし、代表LLMモデルの最大1.94倍のスループットを示す。
論文 参考訳(メタデータ) (2024-02-15T16:38:41Z) - FlightLLM: Efficient Large Language Model Inference with a Complete
Mapping Flow on FPGAs [23.381331567339526]
Transformer-based Large Language Models (LLMs) は様々な領域に多大な影響を与えている。
本稿では,FPGA上での完全なマッピングフローを用いて,効率的なLLM推論を実現するFlightLLMを提案する。
FlightLLMは最新のVersal VHK158 FPGAを使用して1.2$times$高スループットでNVIDIA A100 GPUを破る。
論文 参考訳(メタデータ) (2024-01-08T13:00:53Z) - A Case Study in CUDA Kernel Fusion: Implementing FlashAttention-2 on
NVIDIA Hopper Architecture using the CUTLASS Library [0.7366405857677227]
我々は、NVIDIA Hopperアーキテクチャをターゲットとしたカスタムフューズカーネルとして、FlashAttention-2の前方パスの最適化実装を提供する。
最新のNVIDIA Ampereアーキテクチャ向けに最適化されたFlashAttention-2のバージョンよりも20~50%高いFLOP/sを観測した。
論文 参考訳(メタデータ) (2023-12-19T07:56:25Z) - LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale [80.86029795281922]
トランスにおけるフィードフォワードおよびアテンションプロジェクション層に対するInt8行列乗算法を開発した。
175Bパラメータ16/32ビットのチェックポイントをロードし、Int8に変換し、直ちに使用することができる。
論文 参考訳(メタデータ) (2022-08-15T17:08:50Z) - Distributed Out-of-Memory NMF on CPU/GPU Architectures [1.0051474951635875]
本稿では,HPCシステムに対する非負行列分解(NMF)アルゴリズムのメモリ外実装を提案する。
ベンチマークの結果、CPUベースのNMFkよりもGPUを使用した新しい実装により、32Xから76倍のスピードアップが大幅に改善された。
論文 参考訳(メタデータ) (2022-02-19T03:49:21Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。