Fugu-MT 論文翻訳(概要): FlashInfer: Efficient and Customizable Attention Engine for LLM Inference Serving

論文の概要: FlashInfer: Efficient and Customizable Attention Engine for LLM Inference Serving

arxiv url: http://arxiv.org/abs/2501.01005v1
Date: Thu, 02 Jan 2025 02:02:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-05 16:54:32.127042
Title: FlashInfer: Efficient and Customizable Attention Engine for LLM Inference Serving
Title（参考訳）: FlashInfer: LLM推論のための効率的でカスタマイズ可能なアテンションエンジン
Authors: Zihao Ye, Lequn Chen, Ruihang Lai, Wuwei Lin, Yineng Zhang, Stephanie Wang, Tianqi Chen, Baris Kasikci, Vinod Grover, Arvind Krishnamurthy, Luis Ceze,
Abstract要約: FlashInferは、大きな言語モデル(LLM)のためのカスタマイズ可能で効率的なアテンションエンジンであるブロックスパースフォーマットと構成可能なフォーマットを使用して、KV-cacheストレージの不均一性に取り組むことで、メモリアクセスの最適化と冗長性の低減を実現している。また、Just-In-TimeJITコンパイルによるさまざまな設定への適応を可能にする、カスタマイズ可能なアテンションテンプレートも提供する。
参考スコア（独自算出の注目度）: 9.386969461835433
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Transformers, driven by attention mechanisms, form the foundation of large language models (LLMs). As these models scale up, efficient GPU attention kernels become essential for high-throughput and low-latency inference. Diverse LLM applications demand flexible and high-performance attention solutions. We present FlashInfer: a customizable and efficient attention engine for LLM serving. FlashInfer tackles KV-cache storage heterogeneity using block-sparse format and composable formats to optimize memory access and reduce redundancy. It also offers a customizable attention template, enabling adaptation to various settings through Just-In-Time (JIT) compilation. Additionally, FlashInfer's load-balanced scheduling algorithm adjusts to dynamism of user requests while maintaining compatibility with CUDAGraph which requires static configuration. FlashInfer have been integrated into leading LLM serving frameworks like SGLang, vLLM and MLC-Engine. Comprehensive kernel-level and end-to-end evaluations demonstrate FlashInfer's ability to significantly boost kernel performance across diverse inference scenarios: compared to state-of-the-art LLM serving solutions, FlashInfer achieve 29-69% inter-token-latency reduction compared to compiler backends for LLM serving benchmark, 28-30% latency reduction for long-context inference, and 13-17% speedup for LLM serving with parallel generation.
Abstract（参考訳）: 注意機構によって駆動されるトランスフォーマーは、大きな言語モデル(LLM)の基礎を形成する。これらのモデルがスケールアップするにつれて、高速なGPUアテンションカーネルは高スループットと低レイテンシの推論に欠かせないものとなる。多様なLLMアプリケーションは柔軟で高性能なアテンションソリューションを必要とする。 LLMサービスのためのカスタマイズ可能で効率的なアテンションエンジンであるFlashInferを紹介します。 FlashInferはブロックスパースフォーマットと構成可能なフォーマットを使用してKV-cacheストレージの不均一性に取り組み、メモリアクセスを最適化し冗長性を低減している。また、ジャスト・イン・タイム(JIT)コンパイルによる様々な設定への適応を可能にする、カスタマイズ可能なアテンションテンプレートも提供する。さらに、FlashInferのロードバランススケジューリングアルゴリズムは、静的な設定を必要とするCUDAGraphとの互換性を維持しながら、ユーザの要求のダイナミズムを調整する。 FlashInferは、SGLang、vLLM、MLC-Engineといった主要なLLMサービスフレームワークに統合されている。総合的なカーネルレベルとエンドツーエンドの評価は、FlashInferのカーネル性能をさまざまな推論シナリオで大幅に向上させる能力を示している: 最先端のLLMサービスソリューションと比較して、FlashInferはLLMサービスベンチマークのコンパイラバックエンドと比較して29～69%の遅延削減、長文推論の28～30%のレイテンシ削減、並列生成のLLMサービスにおける13～17%のスピードアップを実現している。

関連論文リスト

BucketServe: Bucket-Based Dynamic Batching for Smart and Efficient LLM Inference Serving [3.620158146761518]
BucketServeは、推論パフォーマンスを最適化するために設計されたバケットベースの動的フレームワークである。 UELLMと比較して1.93倍の要求負荷を達成でき、UELLMよりも1.975倍高いシステム負荷能力を示す。
論文参考訳（メタデータ） (2025-07-23T01:51:48Z)
Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding [51.711605076319216]
拡散に基づく大規模言語モデル (Diffusion LLM) は、並列復号機能を持つ非自己回帰テキスト生成を約束している。本稿では,双方向拡散モデルに適したブロック単位で近似したKVキャッシュ機構を提案する。本稿では,信頼しきい値を超えるトークンを選択的に復号し,依存関係違反を軽減し,生成品質を維持できる信頼度対応並列復号方式を提案する。
論文参考訳（メタデータ） (2025-05-28T17:39:15Z)
Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
LLM-Pilot: Characterize and Optimize Performance of your LLM Inference Services [0.5143325455623888]
LLM-Pilot は LLM 推論サービスの性能を評価・予測するための第一種システムである。予測モデルを学び、これまで見つからなかったLCMのために最もコスト効率の良いハードウェアを推奨することができる。既存の方法と比較して、LLM-Pilotはパフォーマンス要件を33%頻繁に提供し、コストを平均60%削減できる。
論文参考訳（メタデータ） (2024-10-03T12:19:06Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文参考訳（メタデータ） (2024-07-15T17:55:42Z)
On the Compressibility of Quantized Large Language Models [13.443384050034922]
大規模言語モデル(LLM)は、エッジまたはモバイルデバイスにデプロイされ、データプライバシとリアルタイム処理機能を提供する。 LLMは、エッジやモバイルデバイスの限られたメモリに完全に収まるには大きすぎるかもしれないし、推論を完了するには、部分的にストレージからロードする必要がある。データ圧縮技術を適用してデータ移動を減らし、メモリ制約デバイス上での量子化LDMの推論を高速化する。
論文参考訳（メタデータ） (2024-03-03T03:27:07Z)
MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文参考訳（メタデータ） (2024-02-26T18:59:03Z)
Efficient LLM inference solution on Intel GPU [19.154403468201924]
トランスフォーマーベースの大規模言語モデル(LLM)は多くの分野で広く使われている。低レイテンシかつ高スループットで効率的なLLM推論ソリューションを提案する。標準的なHuggingFaceの実装と比較して、提案されたソリューションは最大で7倍のトークンレイテンシと27倍のスループットを実現している。
論文参考訳（メタデータ） (2023-12-19T05:40:43Z)
Efficient LLM Inference on CPUs [8.802223672775844]
大規模言語モデル(LLM)は、幅広いタスクにおいて、顕著なパフォーマンスと大きなポテンシャルを示してきた。これらのモデルのデプロイは、天文学的なモデルパラメータの量のために困難でした。 LLMのデプロイをより効率的にするための効果的なアプローチを提案する。
論文参考訳（メタデータ） (2023-11-01T13:08:50Z)
FusionAI: Decentralized Training and Deploying LLMs with Massive Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文参考訳（メタデータ） (2023-09-03T13:27:56Z)
Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。 FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文参考訳（メタデータ） (2023-05-10T06:17:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。