論文の概要: Flover: A Temporal Fusion Framework for Efficient Autoregressive Model
Parallel Inference
- arxiv url: http://arxiv.org/abs/2305.13484v1
- Date: Mon, 22 May 2023 20:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 20:39:35.471901
- Title: Flover: A Temporal Fusion Framework for Efficient Autoregressive Model
Parallel Inference
- Title(参考訳): Flover: 効率的な自己回帰モデル並列推論のための時間統合フレームワーク
- Authors: Jinghan Yao, Nawras Alnaasan, Tian Chen, Aamir Shafi, Hari Subramoni,
Dhabaleswar K. (DK) Panda
- Abstract要約: Flavorは自己回帰モデルにおける効率的な推論のための時間融合フレームワークである。
NVIDIA Triton FasterTransformerが提供する最先端のソリューションと比較して,GPTモデルの最大11倍高速な推論を実現している。
- 参考スコア(独自算出の注目度): 3.3073942007459753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the rapidly evolving field of deep learning, the performance of model
inference has become a pivotal aspect as models become more complex and are
deployed in diverse applications. Among these, autoregressive models stand out
due to their state-of-the-art performance in numerous generative tasks. These
models, by design, harness a temporal dependency structure, where the current
token's probability distribution is conditioned on preceding tokens. This
inherently sequential characteristic, however, adheres to the Markov Chain
assumption and lacks temporal parallelism, which poses unique challenges.
Particularly in industrial contexts where inference requests, following a
Poisson time distribution, necessitate diverse response lengths, this absence
of parallelism is more profound. Existing solutions, such as dynamic batching
and concurrent model instances, nevertheless, come with severe overheads and a
lack of flexibility, these coarse-grained methods fall short of achieving
optimal latency and throughput. To address these shortcomings, we propose
Flavor -- a temporal fusion framework for efficient inference in autoregressive
models, eliminating the need for heuristic settings and applies to a wide range
of inference scenarios. By providing more fine-grained parallelism on the
temporality of requests and employing an efficient memory shuffle algorithm,
Flover achieves up to 11x faster inference on GPT models compared to the
cutting-edge solutions provided by NVIDIA Triton FasterTransformer. Crucially,
by leveraging the advanced tensor parallel technique, Flover proves efficacious
across diverse computational landscapes, from single-GPU setups to multi-node
scenarios, thereby offering robust performance optimization that transcends
hardware boundaries.
- Abstract(参考訳): ディープラーニングの分野では、モデルがより複雑になり、多様なアプリケーションにデプロイされるにつれて、モデル推論のパフォーマンスが重要な側面となっている。
これらのうち、自己回帰モデルは、多くの生成タスクにおける最先端のパフォーマンスのために際立っている。
これらのモデルは設計上、現在のトークンの確率分布が前のトークンに条件付けられている時間的依存構造を利用する。
しかし、本質的にシーケンシャルな特徴はマルコフ連鎖の仮定に忠実であり、時間的並列性が欠如しており、これは独特な課題をもたらす。
特に、ポアソン時間分布に従う推論要求が多様な応答長を必要とする産業文脈では、この並列性の欠如はより深い。
動的バッチ処理や並列モデルインスタンスといった既存のソリューションは、過度なオーバーヘッドと柔軟性の欠如を伴い、粗い粒度のメソッドは最適なレイテンシとスループットを達成できない。
自動回帰モデルにおける効率的な推論のための時間的融合フレームワークであるFravorを提案し、ヒューリスティックな設定の必要性を排除し、幅広い推論シナリオに適用する。
リクエストの時間性に対してより詳細な並列性を提供し、効率的なメモリシャッフルアルゴリズムを使用することで、NVIDIA Triton FasterTransformerが提供する最先端ソリューションと比較して、GPTモデルの最大11倍高速な推論を実現している。
重要なのは、先進的なテンソル並列技術を活用することで、floverはシングルgpuセットアップからマルチノードシナリオまで、さまざまな計算環境にまたがって有効性が証明され、ハードウェア境界を超える堅牢なパフォーマンス最適化を提供する。
関連論文リスト
- Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences [89.52560850737663]
本稿では,BurstAttention'という分散アテンションフレームワークを提案し,メモリアクセスと通信操作を最適化する。
異なる長さ設定下での実験結果は、BurstAttentionが長いシーケンスを処理する上で大きな利点があることを示している。
論文 参考訳(メタデータ) (2024-03-14T12:51:58Z) - StreamFlow: Streamlined Multi-Frame Optical Flow Estimation for Video
Sequences [31.210626775505407]
連続するフレーム間のオクルージョンは、長い間、光学的フロー推定において重要な課題を提起してきた。
本稿では,ビデオ入力に適したストリーム・イン・バッチ・マルチフレーム(SIM)パイプラインを提案する。
StreamFlowは、挑戦的なKITTIとSintelデータセットのパフォーマンスだけでなく、排他的領域でも特に改善されている。
論文 参考訳(メタデータ) (2023-11-28T07:53:51Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - Sequence Modeling with Multiresolution Convolutional Memory [27.218134279968062]
我々は、MultiresLayerと呼ばれるシーケンスモデリングのための新しいビルディングブロックを構築します。
我々のモデルの主要な構成要素はマルチレゾリューション・コンボリューションであり、入力シーケンスにおけるマルチスケールトレンドをキャプチャする。
本モデルでは,多数のシーケンス分類と自己回帰密度推定タスクについて,最先端の性能を示す。
論文 参考訳(メタデータ) (2023-05-02T17:50:54Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Continuous-time convolutions model of event sequences [53.36665135225617]
イベントシーケンスデータの巨大なサンプルは、eコマース、ヘルスケア、ファイナンスなど、さまざまなドメインで発生します。
利用可能なデータの量とクライアント毎のイベントシーケンスの長さは典型的には大きいため、長期的なモデリングが必要である。
時間内の事象の一様発生に適した連続畳み込みニューラルネットワークに基づくCOTIC法を提案する。
論文 参考訳(メタデータ) (2023-02-13T10:34:51Z) - Model-Architecture Co-Design for High Performance Temporal GNN Inference
on FPGA [5.575293536755127]
実世界のアプリケーションは、リアルタイムストリーミング動的グラフに対して高いパフォーマンスの推論を必要とする。
本稿では,FPGA上でのメモリベースTGNNの推論のための新しいモデルアーキテクチャ共設計を提案する。
我々は、知識蒸留を用いて単純化されたモデルを訓練し、元のモデルと同じような精度でビザビザビザビザを保証します。
論文 参考訳(メタデータ) (2022-03-10T00:24:47Z) - Parallel Actors and Learners: A Framework for Generating Scalable RL
Implementations [14.432131909590824]
強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。
現在の実装は、不規則なメモリアクセスや同期オーバーヘッドといった問題により、パフォーマンスが劣っている。
マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T21:00:53Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。