論文の概要: Blockbuster, Part 1: Block-level AI Operator Fusion
- arxiv url: http://arxiv.org/abs/2505.07829v1
- Date: Tue, 29 Apr 2025 15:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-18 22:55:23.17553
- Title: Blockbuster, Part 1: Block-level AI Operator Fusion
- Title(参考訳): Blockbuster, Part 1: Block-level AI Operator Fusion
- Authors: Ofer Dekel,
- Abstract要約: BlockbusterはAIオペレーターによる推論プログラムの融合のためのフレームワークである。
階層化されたメモリ階層を持つ任意のマルチプロセッサアーキテクチャと互換性がある。
これには、AIワークロードのためのグラフベースの表現が含まれている。
- 参考スコア(独自算出の注目度): 0.3626013617212666
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Blockbuster is a framework for AI operator fusion in inference programs. The Blockbuster framework is compatible with any multiprocessor architecture that has a tiered memory hierarchy, including GPUs, multi-core CPUs, and some AI accelerator chips. It includes a graph-based representation for AI workloads, called a block program, which explicitly models how blocks of data move between the memory tiers. It also includes an operator fusion procedure, which is made up of a candidate selection algorithm and a fusion algorithm that fuses each individual candidate - this two-algorithm structure makes Blockbuster especially suitable for large AI programs. The current paper focuses on the fusion algorithm, which is a rule-based technique. While the literature is full of previous rule-based fusion algorithms, what sets our algorithm apart is its direct modeling of data movement between memory tiers, resulting in uniquely powerful fusion results. As a first sanity check, we demonstrate how our algorithm automatically rediscovers the well-known Flash Attention kernel. Then, we demonstrate the real power of our approach by fusing LayerNorm with matrix multiplication and RMSNorm with FNN-SwiGLU - the latter involves fusing three matrix multiplications, a Hadamard product, a reduction, and a few elementwise operations into a single mega-kernel.
- Abstract(参考訳): BlockbusterはAIオペレーターによる推論プログラムの融合のためのフレームワークである。
Blockbusterフレームワークは、GPU、マルチコアCPU、いくつかのAIアクセラレータチップを含む、階層化されたメモリ階層を持つ任意のマルチプロセッサアーキテクチャと互換性がある。
これには、ブロックプログラムと呼ばれる、AIワークロードのためのグラフベースの表現が含まれており、メモリ層間のデータのブロックの移動方法を明示的にモデル化している。
また、候補選択アルゴリズムと個々の候補を融合する融合アルゴリズムで構成される演算子融合手順も含んでいる。
本論文は,ルールベース手法である融合アルゴリズムに焦点をあてる。
文献は従来のルールベースの融合アルゴリズムに満ちているが、我々のアルゴリズムはメモリ層間のデータ移動の直接モデリングであり、結果として独自の強力な融合結果をもたらす。
最初の正当性チェックとして、我々のアルゴリズムがよく知られたFlash Attentionカーネルをいかに自動的に再結合するかを示す。
次に,FNN-SwiGLUでLayerNormを,FNN-SwiGLUでRMSNormを,さらに3つの行列乗算,アダマール積,還元演算,および数個の要素演算を1つのメガカーネルに融合させることにより,我々のアプローチの実力を実証する。
関連論文リスト
- Applying Graph Explanation to Operator Fusion [25.28963706415794]
Fusionは、アクセラレータのオンチップバッファとDRAM間のデータトランザクションを削減することで、推論コストの削減を目指している。
これは、畳み込みやアクティベーションのような複数の操作をグループ化して、単一の実行ユニット – 融合グループ – にまとめることで実現される。
最適群を見つけることは、従来の探索アルゴリズムを妨害し、堅牢なアプローチを要求する、無効な解が存在するという複雑な問題である。
論文 参考訳(メタデータ) (2024-12-31T20:22:10Z) - GreedyML: A Parallel Algorithm for Maximizing Constrained Submodular Functions [2.9998889086656586]
分散メモリマルチプロセッサ上での単調部分モジュラ関数の最大化のための並列近似アルゴリズムについて述べる。
我々の研究は、大規模データセットにおける部分モジュラー最適化問題を解く必要性によって動機付けられている。
論文 参考訳(メタデータ) (2024-03-15T14:19:09Z) - Fixed-Budget Real-Valued Combinatorial Pure Exploration of Multi-Armed
Bandit [65.268245109828]
このアルゴリズムは,アクションクラスのサイズが指数関数的に大きい場合でも,最良のアクションを識別できる最初のアルゴリズムである。
CSAアルゴリズムの誤差確率の上限は指数の対数係数までの下界と一致することを示す。
提案手法を従来手法と実験的に比較し,アルゴリズムの性能が向上したことを示す。
論文 参考訳(メタデータ) (2023-10-24T09:47:32Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - A Late Fusion Framework with Multiple Optimization Methods for Media
Interestingness [5.464235463199782]
本稿では,CLEF Fusion 2022で導入されたメディア興味度スコア予測タスクに対して,いくつかの融合手法を提案する。
提案手法は,全てのインデューサを等しく扱うナイーブフュージョンスキームと,メリットに基づくフュージョンスキームの両方を含む。
その結果, PSO, TNAの平均精度は0.109であり, 平均精度は10。
論文 参考訳(メタデータ) (2022-07-11T10:48:34Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - Practical, Provably-Correct Interactive Learning in the Realizable
Setting: The Power of True Believers [12.09273192079783]
我々は、対話型学習を実現可能な設定で検討し、最適な腕の識別からアクティブな分類に至るまでの問題に対処する一般的な枠組みを開発する。
我々は,最小限の値と対数係数とを一致させる,計算効率のよい新しいアルゴリズムを設計する。
論文 参考訳(メタデータ) (2021-11-09T02:33:36Z) - RAMA: A Rapid Multicut Algorithm on GPU [23.281726932718232]
本稿では,マルチカット問題(マグニチュード相関クラスタリング)に対する高並列原始双対アルゴリズムを提案する。
我々のアルゴリズムは、最適距離を推定する原始解と双対下界を生成する。
最大$mathcalO(108)$変数を数秒で、小さな原始双対ギャップで、非常に大規模なベンチマーク問題を解くことができる。
論文 参考訳(メタデータ) (2021-09-04T10:33:59Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - MPLP++: Fast, Parallel Dual Block-Coordinate Ascent for Dense Graphical
Models [96.1052289276254]
この研究は、人気のあるDual Block-Coordinate Ascent原則に基づく新しいMAP-solverを導入している。
驚いたことに、性能の低い解法に小さな変更を加えることで、既存の解法を大きなマージンで大幅に上回る新しい解法MPLP++を導出します。
論文 参考訳(メタデータ) (2020-04-16T16:20:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。