Fugu-MT 論文翻訳(概要): FlashDecoding++: Faster Large Language Model Inference on GPUs

論文の概要: FlashDecoding++: Faster Large Language Model Inference on GPUs

arxiv url: http://arxiv.org/abs/2311.01282v4
Date: Fri, 5 Jan 2024 12:41:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-08 17:52:26.851168
Title: FlashDecoding++: Faster Large Language Model Inference on GPUs
Title（参考訳）: FlashDecoding++:GPU上での高速な大規模言語モデル推論
Authors: Ke Hong, Guohao Dai, Jiaming Xu, Qiuli Mao, Xiuhong Li, Jun Liu, Kangdi Chen, Yuhan Dong, Yu Wang
Abstract要約: 本稿では,主要なLarge Language Model(LLM)推論をサポートする高速推論エンジンであるFlashDecoding++を紹介する。上記の課題に対処するため、FlashDecoding++は、異なる部分的ソフトマックス計算のための統一された最大値技術を導入した。 FlashDecoding++はNVIDIAとAMDの両方のGPUで最大4.86倍と2.18倍のスピードアップを達成できる。
参考スコア（独自算出の注目度）: 16.289377349637995
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: As the Large Language Model (LLM) becomes increasingly important in various domains. However, the following challenges still remain unsolved in accelerating LLM inference: (1) Synchronized partial softmax update. The softmax operation requires a synchronized update operation among each partial softmax result, leading to ~20% overheads for the attention computation in LLMs. (2) Under-utilized computation of flat GEMM. The shape of matrices performing GEMM in LLM inference is flat, leading to under-utilized computation and >50% performance loss after padding zeros in previous designs. (3) Performance loss due to static dataflow. Kernel performance in LLM depends on varied input data features, hardware configurations, etc. A single and static dataflow may lead to a 50.25% performance loss for GEMMs of different shapes in LLM inference. We present FlashDecoding++, a fast LLM inference engine supporting mainstream LLMs and hardware back-ends. To tackle the above challenges, FlashDecoding++ creatively proposes: (1) Asynchronized softmax with unified max value. FlashDecoding++ introduces a unified max value technique for different partial softmax computations to avoid synchronization. (2) Flat GEMM optimization with double buffering. FlashDecoding++ points out that flat GEMMs with different shapes face varied bottlenecks. Then, techniques like double buffering are introduced. (3) Heuristic dataflow with hardware resource adaptation. FlashDecoding++ heuristically optimizes dataflow using different hardware resource considering input dynamics. Due to the versatility of optimizations in FlashDecoding++, FlashDecoding++ can achieve up to 4.86x and 2.18x speedup on both NVIDIA and AMD GPUs compared to Hugging Face implementations. FlashDecoding++ also achieves an average speedup of 1.37x compared to state-of-the-art LLM inference engines on mainstream LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)が様々な領域でますます重要になっている。しかし, LLM推論の高速化には, 1) 同期部分ソフトマックス更新という課題がまだ未解決である。ソフトマックス演算は、各部分ソフトマックス結果間の同期更新操作を必要とし、LLMにおける注意計算のオーバーヘッドはおよそ20%である。 2)フラットGEMMのアンダーユース計算 LLM推論でGEMMを行う行列の形状は平坦であり、従来の設計ではゼロをパッドした後に計算が未使用となり、50%以上の性能損失が生じる。 (3)静的データフローによるパフォーマンス損失。 LLMのカーネル性能は、様々な入力データ機能、ハードウェア構成などに依存する。単一かつ静的なデータフローは、LLM推論において異なる形状のGEMMに対して50.25%のパフォーマンス損失をもたらす可能性がある。メインストリームLLMとハードウェアバックエンドをサポートする高速LLM推論エンジンであるFlashDecoding++を紹介する。上記の課題に対処するため、FlashDecoding++は次のように創造的に提案している。 flashdecoding++は、同期を避けるために、異なる部分ソフトマックス計算のための統一されたmax値技術を導入する。 2) ダブルバッファリングによるフラットGEMM最適化 FlashDecoding++は、形状の異なるフラットなGEMMがボトルネックに直面していることを指摘している。次に,ダブルバッファリングなどの手法を導入する。 (3)ハードウェアリソース適応によるヒューリスティックデータフロー FlashDecoding++は入力ダイナミクスを考慮して異なるハードウェアリソースを使用してデータフローをヒューリスティックに最適化する。 flashdecoding++の最適化が多岐にわたるため、flashdecoding++はnvidiaとamdの両方のgpuで最大4.86倍と2.18倍のスピードアップを達成できる。 FlashDecoding++は、主流のLLM上の最先端のLLM推論エンジンと比較して平均1.37倍の高速化を実現している。

関連論文リスト

QiMeng-Attention: SOTA Attention Operator is generated by SOTA Attention Algorithm [24.09018606185114]
我々は,LLMがGPU上での高レベル最適化ロジックの生成と低レベル実装を分離するためのLLMフレンドリーな思考言語(LLM-TL)を提案する。 2段階の推論ワークフロー、TL-Codeの生成と変換に加えて、LLMはさまざまなGPU上でFlashAttention実装を自動的に生成できる。
論文参考訳（メタデータ） (2025-06-14T05:38:19Z)
70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [71.43026659686679]
大規模言語モデル(LLM)は急速に規模を拡大し、リソース制約のあるハードウェアに効率的なデプロイを行う上での課題を生み出している。圧縮フレームワークであるDynamic-Length Float (DFloat11)を導入し、LLMのサイズを30%削減し、元のモデルと同じビット対ビットの出力を保存する。
論文参考訳（メタデータ） (2025-04-15T22:38:38Z)
Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
Highly Optimized Kernels and Fine-Grained Codebooks for LLM Inference on Arm CPUs [0.8217552831952]
大きな言語モデル(LLM)は、言語理解と生成に関する考え方を変えました。 LLM量子化によく使われるグループ量子化形式は、計算上のオーバーヘッドとリソース集約型量子化プロセスを持つ。本稿では,LLMの超低精度量子化のためのグループワイド非一様符号ブックに基づく量子化手法を提案する。
論文参考訳（メタデータ） (2024-12-23T03:44:29Z)
BitMoD: Bit-serial Mixture-of-Datatype LLM Acceleration [7.774285511386959]
大規模言語モデル(LLM)は、さまざまな機械学習タスクで顕著なパフォーマンスを示している。しかし、LLMのかなりのメモリフットプリントは、そのデプロイメントを著しく妨げている。我々は,アルゴリズムとハードウェアの共同設計ソリューションであるBitMoDを用いて,LLMのアクセシビリティを向上させる。
論文参考訳（メタデータ） (2024-11-18T17:16:58Z)
Pyramidal Flow Matching for Efficient Video Generative Modeling [67.03504440964564]
この研究は、統合ピラミッドフローマッチングアルゴリズムを導入している。元々の装飾軌道をピラミッドの一連の段階として犠牲にしており、最終段階のみが完全な解像度で機能している。フレームワーク全体はエンドツーエンドで最適化でき、単一の統合Diffusion Transformer (DiT) を使用する。
論文参考訳（メタデータ） (2024-10-08T12:10:37Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs [15.276687781165608]
大規模言語モデル(LLM)は、インテリジェントアシスタント、テキスト要約、翻訳、携帯電話でのマルチモダリティといったタスクに広く使われている。デバイスGPU上でのLLMの高効率展開を容易にするため,我々は4つの最適化手法を提案する。モバイル推論エンジンであるTransformer-LiteはQualcommおよびMTKプロセッサと互換性がある。
論文参考訳（メタデータ） (2024-03-29T08:26:53Z)
Break the Sequential Dependency of LLM Inference Using Lookahead Decoding [27.87483106859749]
Lookahead decodingは、大規模言語モデル(LLM)のための正確な並列デコーディングアルゴリズムである。実装により,MT-benchでは1.8倍,コード補完タスクでは4倍まで高速に自動回帰復号を行うことができる。
論文参考訳（メタデータ） (2024-02-03T06:37:50Z)
FlightLLM: Efficient Large Language Model Inference with a Complete Mapping Flow on FPGAs [23.381331567339526]
Transformer-based Large Language Models (LLMs) は様々な領域に多大な影響を与えている。本稿では,FPGA上での完全なマッピングフローを用いて,効率的なLLM推論を実現するFlightLLMを提案する。 FlightLLMは最新のVersal VHK158 FPGAを使用して1.2$times$高スループットでNVIDIA A100 GPUを破る。
論文参考訳（メタデータ） (2024-01-08T13:00:53Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
LM-Infinite: Zero-Shot Extreme Length Generalization for Large Language Models [83.98062659664785]
大規模言語モデル(LLM)は通常、トランスフォーマーアーキテクチャの2次複雑さのために短いテキストセグメント(例:4Kトークン)でトレーニングする。この研究は、この長大一般化失敗に寄与する3つの主要な要因を特定する。本研究では,LLMの長期処理能力を高めるための簡易かつ効果的な手法であるLM-Infiniteを提案する。
論文参考訳（メタデータ） (2023-08-30T16:47:51Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning [11.508362885430133]
非対称なGPUメモリ階層を利用して、メモリの大幅な節約と実行時の高速化を実現しています。 FlashAttentionはまだGEMM(Optimized matrix-multiply)操作ほど高速ではなく、理論上の最大FLOP/sの25-40%にしか達していない。これらの問題に対処するために、より優れた作業パーティショニングを備えたFlashAttention-2を提案する。
論文参考訳（メタデータ） (2023-07-17T17:50:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。