論文の概要: Enhancing Performance and Scalability of Large-Scale Recommendation Systems with Jagged Flash Attention
- arxiv url: http://arxiv.org/abs/2409.15373v1
- Date: Thu, 19 Sep 2024 18:20:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 13:30:54.764689
- Title: Enhancing Performance and Scalability of Large-Scale Recommendation Systems with Jagged Flash Attention
- Title(参考訳): フラッシュアテンションを付加した大規模レコメンデーションシステムの性能とスケーラビリティ向上
- Authors: Rengan Xu, Junjie Yang, Yifan Xu, Hong Li, Xing Liu, Devashish Shankar, Haoci Zhang, Meng Liu, Boyang Li, Yuxi Hu, Mingwei Tang, Zehua Zhang, Tunhou Zhang, Dai Li, Sijia Chen, Gian-Paolo Musumeci, Jiaqi Zhai, Bill Zhu, Hong Yan, Srihari Reddy,
- Abstract要約: Jagged Feature Interaction Kernelsは、長いカテゴリの特徴からきめ細かい洞察を抽出する新しい手法である。
我々の小説『Jagged Flash Attention』は、注目度と比較して最大9倍のスピードアップと22倍のメモリ削減を実現している。
- 参考スコア(独自算出の注目度): 27.694595395003056
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The integration of hardware accelerators has significantly advanced the capabilities of modern recommendation systems, enabling the exploration of complex ranking paradigms previously deemed impractical. However, the GPU-based computational costs present substantial challenges. In this paper, we demonstrate our development of an efficiency-driven approach to explore these paradigms, moving beyond traditional reliance on native PyTorch modules. We address the specific challenges posed by ranking models' dependence on categorical features, which vary in length and complicate GPU utilization. We introduce Jagged Feature Interaction Kernels, a novel method designed to extract fine-grained insights from long categorical features through efficient handling of dynamically sized tensors. We further enhance the performance of attention mechanisms by integrating Jagged tensors with Flash Attention. Our novel Jagged Flash Attention achieves up to 9x speedup and 22x memory reduction compared to dense attention. Notably, it also outperforms dense flash attention, with up to 3x speedup and 53% more memory efficiency. In production models, we observe 10% QPS improvement and 18% memory savings, enabling us to scale our recommendation systems with longer features and more complex architectures.
- Abstract(参考訳): ハードウェアアクセラレータの統合は、近代的なレコメンデーションシステムの能力を大幅に向上させ、以前は非現実的と考えられていた複雑なランキングパラダイムの探索を可能にした。
しかし、GPUベースの計算コストには大きな課題がある。
本稿では,従来のPyTorchモジュールへの依存を超えて,これらのパラダイムを探索する効率駆動型アプローチの開発を実証する。
我々は,GPU利用の複雑化と長さの異なる分類的特徴への依存度をモデルにランク付けすることで生じる,特定の課題に対処する。
Jagged Feature Interaction Kernelsは、動的サイズのテンソルの効率的なハンドリングを通じて、長いカテゴリの特徴からきめ細かな洞察を抽出する新しい手法である。
我々は、Jagged tensor と Flash Attention を統合することにより、アテンション機構の性能をさらに向上する。
我々の小説『Jagged Flash Attention』は、注目度と比較して最大9倍のスピードアップと22倍のメモリ削減を実現している。
また、フラッシュの注目度も高く、最大3倍のスピードアップと53%のメモリ効率を実現しています。
プロダクションモデルでは、10%のQPS改善と18%のメモリ節約を観察し、より長い機能とより複雑なアーキテクチャでレコメンデーションシステムをスケールできます。
関連論文リスト
- HASN: Hybrid Attention Separable Network for Efficient Image Super-resolution [5.110892180215454]
単一画像の超高解像度化のための軽量な手法は、限られたハードウェアリソースのために優れた性能を達成した。
その結果, 各ブロックの残差接続により, モデルストレージと計算コストが増大することが判明した。
我々は,基本的特徴抽出モジュールとして,奥行き分離可能な畳み込み,完全連結層,アクティベーション関数を用いる。
論文 参考訳(メタデータ) (2024-10-13T14:00:21Z) - Hybrid Dynamic Pruning: A Pathway to Efficient Transformer Inference [1.0919012968294923]
本稿では,頭部の疎度を用いてトランスフォーマーを高速化し,疎度をブロックし,注意の計算を減らし,メモリアクセスを減らし,新しいアルゴリズムアーキテクチャの共設計手法を提案する。
注目スコアと注目ヘッドの巨大な冗長性を観測し、実行時に注目行列内の重要でないブロックをプルーする整数ベースの行平衡ブロックプルーニングを提案する。
また、実行時に重要でないヘッドを検出およびプルーする整数ベースのヘッドプルーニングを提案する。
論文 参考訳(メタデータ) (2024-07-17T11:15:16Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - FLAASH: Flexible Accelerator Architecture for Sparse High-Order Tensor Contraction [3.6640504352010885]
本稿では,スパーステンソル収縮のためのフレキシブルでモジュラーな加速器であるFLAASHを紹介する。
我々のアーキテクチャは、スパースドット製品(またはその一部)を多数のスパースドット製品エンジンに分散することにより、スパーステンソル収縮を行う。
提案手法の有効性は,様々な評価によって示され,空間性や順序の増大とともに顕著なスピードアップが示される。
論文 参考訳(メタデータ) (2024-04-25T03:46:53Z) - Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative
Model Inference with Unstructured Sparsity [12.663030430488922]
高速コア上での低コストかつ高効率な大規模生成モデル推論を実現するためのFlash-LLMを提案する。
SpMMカーネルレベルでは、Flash-LLMは最先端のライブラリであるSputnikとSparTAをそれぞれ平均2.9倍、1.5倍で上回っている。
論文 参考訳(メタデータ) (2023-09-19T03:20:02Z) - Pre-gated MoE: An Algorithm-System Co-Design for Fast and Scalable Mixture-of-Expert Inference [23.207326766883405]
Mixture-of-Experts (MoE)は、計算要求を比例的にスケールアップすることなく、モデルサイズをスケールすることができる。
プレゲートMOEは、スパース専門家活性化の動的性質を緩和する新しいプレゲート機能を用いている。
我々は、Pre-gated MoEが、同じレベルのモデル品質を維持しながら、パフォーマンスを改善し、GPUメモリ消費を減らすことを実証した。
論文 参考訳(メタデータ) (2023-08-23T11:25:37Z) - Data-Model-Circuit Tri-Design for Ultra-Light Video Intelligence on Edge
Devices [90.30316433184414]
本稿では,HDビデオストリーム上での高スループット,低コスト,高精度MOTのためのデータモデル・ハードウエア・トリデザイン・フレームワークを提案する。
現状のMOTベースラインと比較して、我々の三設計アプローチは12.5倍の遅延低減、20.9倍のフレームレート改善、5.83倍の低消費電力、9.78倍のエネルギー効率を実現でき、精度は低下しない。
論文 参考訳(メタデータ) (2022-10-16T16:21:40Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - EfficientViT: Multi-Scale Linear Attention for High-Resolution Dense
Prediction [67.11722682878722]
この研究は、新しいマルチスケール線形注意を持つ高解像度ビジョンモデルのファミリーであるEfficientViTを提示する。
マルチスケール線形注意は,グローバルな受容場とマルチスケール学習を実現する。
EfficientViTは従来の最先端モデルよりも優れたパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2022-05-29T20:07:23Z) - Top-KAST: Top-K Always Sparse Training [50.05611544535801]
トレーニングを通して一定間隔を保存するTop-KASTを提案する。
確立したImageNetベンチマークのトレーニングモデルでは,従来の作業と同等かそれ以上に動作可能であることを示す。
ImageNetの結果に加えて、言語モデリングの分野においても、我々のアプローチを実証しています。
論文 参考訳(メタデータ) (2021-06-07T11:13:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。