論文の概要: Flover: A Temporal Fusion Framework for Efficient Autoregressive Model
Parallel Inference
- arxiv url: http://arxiv.org/abs/2305.13484v1
- Date: Mon, 22 May 2023 20:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 20:39:35.471901
- Title: Flover: A Temporal Fusion Framework for Efficient Autoregressive Model
Parallel Inference
- Title(参考訳): Flover: 効率的な自己回帰モデル並列推論のための時間統合フレームワーク
- Authors: Jinghan Yao, Nawras Alnaasan, Tian Chen, Aamir Shafi, Hari Subramoni,
Dhabaleswar K. (DK) Panda
- Abstract要約: Flavorは自己回帰モデルにおける効率的な推論のための時間融合フレームワークである。
NVIDIA Triton FasterTransformerが提供する最先端のソリューションと比較して,GPTモデルの最大11倍高速な推論を実現している。
- 参考スコア(独自算出の注目度): 3.3073942007459753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the rapidly evolving field of deep learning, the performance of model
inference has become a pivotal aspect as models become more complex and are
deployed in diverse applications. Among these, autoregressive models stand out
due to their state-of-the-art performance in numerous generative tasks. These
models, by design, harness a temporal dependency structure, where the current
token's probability distribution is conditioned on preceding tokens. This
inherently sequential characteristic, however, adheres to the Markov Chain
assumption and lacks temporal parallelism, which poses unique challenges.
Particularly in industrial contexts where inference requests, following a
Poisson time distribution, necessitate diverse response lengths, this absence
of parallelism is more profound. Existing solutions, such as dynamic batching
and concurrent model instances, nevertheless, come with severe overheads and a
lack of flexibility, these coarse-grained methods fall short of achieving
optimal latency and throughput. To address these shortcomings, we propose
Flavor -- a temporal fusion framework for efficient inference in autoregressive
models, eliminating the need for heuristic settings and applies to a wide range
of inference scenarios. By providing more fine-grained parallelism on the
temporality of requests and employing an efficient memory shuffle algorithm,
Flover achieves up to 11x faster inference on GPT models compared to the
cutting-edge solutions provided by NVIDIA Triton FasterTransformer. Crucially,
by leveraging the advanced tensor parallel technique, Flover proves efficacious
across diverse computational landscapes, from single-GPU setups to multi-node
scenarios, thereby offering robust performance optimization that transcends
hardware boundaries.
- Abstract(参考訳): ディープラーニングの分野では、モデルがより複雑になり、多様なアプリケーションにデプロイされるにつれて、モデル推論のパフォーマンスが重要な側面となっている。
これらのうち、自己回帰モデルは、多くの生成タスクにおける最先端のパフォーマンスのために際立っている。
これらのモデルは設計上、現在のトークンの確率分布が前のトークンに条件付けられている時間的依存構造を利用する。
しかし、本質的にシーケンシャルな特徴はマルコフ連鎖の仮定に忠実であり、時間的並列性が欠如しており、これは独特な課題をもたらす。
特に、ポアソン時間分布に従う推論要求が多様な応答長を必要とする産業文脈では、この並列性の欠如はより深い。
動的バッチ処理や並列モデルインスタンスといった既存のソリューションは、過度なオーバーヘッドと柔軟性の欠如を伴い、粗い粒度のメソッドは最適なレイテンシとスループットを達成できない。
自動回帰モデルにおける効率的な推論のための時間的融合フレームワークであるFravorを提案し、ヒューリスティックな設定の必要性を排除し、幅広い推論シナリオに適用する。
リクエストの時間性に対してより詳細な並列性を提供し、効率的なメモリシャッフルアルゴリズムを使用することで、NVIDIA Triton FasterTransformerが提供する最先端ソリューションと比較して、GPTモデルの最大11倍高速な推論を実現している。
重要なのは、先進的なテンソル並列技術を活用することで、floverはシングルgpuセットアップからマルチノードシナリオまで、さまざまな計算環境にまたがって有効性が証明され、ハードウェア境界を超える堅牢なパフォーマンス最適化を提供する。
関連論文リスト
- COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Kraken: Inherently Parallel Transformers For Efficient Multi-Device Inference [8.527031391688283]
Krakenは、マルチデバイスシステムの効率的な推論のための標準的なTransformerアーキテクチャの進化である。
OpenWebTextでトレーニングすると、Krakenモデルは標準のTransformerと同じような難易度に達する。
SuperGLUEベンチマークでテストすると、Krakenはモデルサイズで平均35.6%のタイム・トゥ・ファースト・トークンをスピードアップする。
論文 参考訳(メタデータ) (2024-08-14T20:24:03Z) - PipeInfer: Accelerating LLM Inference using Asynchronous Pipelined Speculation [9.080650575731152]
PipeInferは、パイプライン化された投機的アクセラレーション技術で、トークン間のレイテンシを低減し、単一要求シナリオにおけるシステム利用を改善する。
PipeInferは、標準的な投機的推論よりも生成速度が2.15$times$改善されている。
論文 参考訳(メタデータ) (2024-07-16T14:52:02Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Pipette: Automatic Fine-grained Large Language Model Training Configurator for Real-World Clusters [5.190794062263327]
大規模言語モデル(LLM)の訓練は、膨大な計算能力とメモリ容量の要求のために困難であることが知られている。
本稿では,実世界のクラスタを対象としたLLM自動微粒化トレーニングであるPipetteを提案する。
論文 参考訳(メタデータ) (2024-05-28T11:59:44Z) - Freya PAGE: First Optimal Time Complexity for Large-Scale Nonconvex Finite-Sum Optimization with Heterogeneous Asynchronous Computations [92.1840862558718]
実用的な分散システムでは、労働者は概して均質ではなく、非常に多様な処理時間を持つ。
本稿では、任意に遅い計算を扱うための新しい並列手法Freyaを提案する。
Freyaは従来の手法と比較して,複雑性の保証が大幅に向上していることを示す。
論文 参考訳(メタデータ) (2024-05-24T13:33:30Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。