Fugu-MT 論文翻訳(概要): LLM Inference Acceleration via Efficient Operation Fusion

論文の概要: LLM Inference Acceleration via Efficient Operation Fusion

arxiv url: http://arxiv.org/abs/2502.17728v1
Date: Mon, 24 Feb 2025 23:42:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 17:42:45.613923
Title: LLM Inference Acceleration via Efficient Operation Fusion
Title（参考訳）: 効率的な核融合によるLDM推論高速化
Authors: Mahsa Salmani, Ilya Soloveychik,
Abstract要約: Transformer-based Large Language Models (LLM) は数十億のパラメータを含み、トレーニングと推論に専用のハードウェアリソースを必要とする。 Transformerアーキテクチャに固有の重要な課題の1つは、多くの非線形変換をサポートする必要性である。このような集団的操作によるオーバーヘッドを完全に隠蔽できる極めて効率的な手法を提案する。
参考スコア（独自算出の注目度）: 1.350507740574158
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid development of the Transformer-based Large Language Models (LLMs) in recent years has been closely linked to their ever-growing and already enormous sizes. Many LLMs contain hundreds of billions of parameters and require dedicated hardware resources for training and inference. One of the key challenges inherent to the Transformer architecture is the requirement to support numerous non-linear transformations that involves normalization. For instance, each decoder block typically contains at least one Softmax operation and two Layernorms. The computation of the corresponding normalization scaling factors becomes a major bottleneck as it requires spatial collective operations. In other words, when it comes to the computation of denominators for Softmax and Layernorm, all vector elements must be aggregated into a single location, requiring significant communication. These collective operations slow down inference on Transformers by approximately 20%, defeating the whole purpose of distributed in-memory compute. In this work, we propose an extremely efficient technique that can completely hide the overhead caused by such collective operations. Note that each Softmax and Layernorm operation is typically followed by a linear layer. Since non-linear and linear operations are performed on different hardware engines, they can be easily parallelized once the algebra allows such commutation. By leveraging the inherent properties of linear operations, we can defer the normalization of the preceding Softmax and Layernorm until after the linear layer is computed. Now we can compute the collective scaling factors concurrently with the matrix multiplication and completely hide the latency of the former behind the latter. Such parallelization preserves the numerical accuracy while significantly improving the hardware utilization and reducing the overall latency.
Abstract（参考訳）: 近年のTransformer-based Large Language Models (LLMs) の急速な発展は、その成長途上かつ既に巨大なサイズと密接に関連している。多くのLSMには数十億のパラメータが含まれており、トレーニングと推論に専用のハードウェアリソースが必要である。 Transformerアーキテクチャに固有の重要な課題の1つは、正規化を含む多くの非線形変換をサポートする必要性である。例えば、各デコーダブロックは、通常、少なくとも1つのSoftmax演算と2つのLayernormを含む。対応する正規化スケーリング因子の計算は、空間的集合演算を必要とするため、大きなボトルネックとなる。言い換えれば、SoftmaxとLayernormの分母の計算に関しては、すべてのベクトル要素を単一の場所に集約し、かなりの通信を必要とする。これらの集合演算はTransformerの推論を約20%遅くし、分散インメモリ計算の目的を全て打ち破った。本研究では,このような集団操作によるオーバーヘッドを完全に隠蔽する,極めて効率的な手法を提案する。各ソフトマックスとレイヤーノルムの演算は通常、線形層が続くことに注意されたい。非線型演算と線形演算は異なるハードウェアエンジン上で実行されるため、代数がそのような可換化を許せば容易に並列化できる。線形演算の固有の性質を利用することで、線形層が計算されるまで、前のソフトマックスとレイヤーノルムの正規化を遅らせることができる。現在、行列乗算と並行してスケーリング係数を計算し、後者の後方にある前者のレイテンシを完全に隠すことができる。このような並列化は、ハードウェア使用率を大幅に改善し、全体的なレイテンシを低減するとともに、数値的精度を保っている。

関連論文リスト

Flexible Operator Fusion for Fast Sparse Transformer with Diverse Masking on GPU [18.470239387359094]
フレキシブルマスキングとGPU上の演算子融合によるスパーストランスフォーマーの最適化を組み込んだフレームワークであるSTOFを提案する。 STOFは,MHA計算で1.7倍,エンドツーエンド推論で1.5倍の高速化を実現する。
論文参考訳（メタデータ） (2025-06-06T13:54:34Z)
Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)を用いて,より効率的な長文処理を実現する。本稿ではまず,変圧器の非効率性を注目シンク現象とみなす。我々は、ソフトマックスをシグモイド関数に置き換え、効率的な情報圧縮と保持のためにバランスの取れたALiBiとRotary Position Embeddingを利用する。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
MemoryFormer: Minimize Transformer Computation by Removing Fully-Connected Layers [43.39466934693055]
本稿では,新しい視点から計算複雑性(FLOP)を大幅に低減する,新しいトランスフォーマーアーキテクチャであるMemoryFormerを提案する。これは、完全連結層の線形射影を置き換えるために、特徴変換の代替手法を利用することで実現される。提案手法の有効性を示すため,様々なベンチマーク実験を行った。
論文参考訳（メタデータ） (2024-11-20T02:41:53Z)
SLaNC: Static LayerNorm Calibration [1.2016264781280588]
より精度の低いフォーマットへの量子化は、利用可能な値表現の限られた範囲によって引き起こされる多くの課題を自然に引き起こす。本稿では,推論中のTransformerモデルに容易に適用可能な,計算効率のよいスケーリング手法を提案する。提案手法は,直近の線形層の静的重みに基づくLayerNorm入力のスケーリング方法を提案する。
論文参考訳（メタデータ） (2024-10-14T14:32:55Z)
Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time [17.086679273053853]
本研究では,新しい高速近似法により,ほぼ線形時間で勾配を計算することができることを示す。勾配の効率を改善することで、この作業がより効果的なトレーニングと長期コンテキスト言語モデルのデプロイを促進することを期待する。
論文参考訳（メタデータ） (2024-08-23T17:16:43Z)
Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文参考訳（メタデータ） (2024-06-10T17:24:42Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
Gated Linear Attention Transformers with Hardware-Efficient Training [60.670102007737476]
本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。変圧器の標準アテンション層に代えて使用すると、結果として生じるゲート状リニアアテンショントランスが競合的に動作することが分かる。
論文参考訳（メタデータ） (2023-12-11T18:51:59Z)
Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文参考訳（メタデータ） (2022-07-05T03:08:27Z)
Block-Recurrent Transformers [49.07682696216708]
本稿では,逐次的にトランス層を適用するBlock-Recurrent Transformerを提案する。我々のリカレントセルはシングルトークンではなくトークンブロック上で動作し、アクセルハードウェアを効率的に活用するためにブロック内の並列計算を利用する。
論文参考訳（メタデータ） (2022-03-11T23:44:33Z)
NN-LUT: Neural Approximation of Non-Linear Operations for Efficient Transformer Inference [9.329021390526124]
GELU、Layer normalization、Softmaxといった非線形演算は、トランスフォーマーモデルのブロックの構築には不可欠だがコストがかかる。本稿では,効率的なトランスフォーマー推論のためのハードウェアフレンドリな近似フレームワークを提案する。
論文参考訳（メタデータ） (2021-12-03T23:06:57Z)
Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文参考訳（メタデータ） (2021-07-12T22:43:11Z)
TurboTransformers: An Efficient GPU Serving System For Transformer Models [17.4637724940437]
TurboTransformersシステムは、コンピューティングランタイムとサービスフレームワークで構成されている。 GPUベースのバッチ削減操作に対して,効率的な並列アルゴリズムを提案する。メモリ割り当てアルゴリズムは可変長入力状況向けに設計されている。新しいバッチスケジューラを備えたサービスフレームワークは、可変長要求に対して最適なスループットを実現する。
論文参考訳（メタデータ） (2020-10-09T07:28:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。