論文の概要: RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators
- arxiv url: http://arxiv.org/abs/2603.10026v1
- Date: Tue, 24 Feb 2026 12:29:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.58235
- Title: RedFuser: An Automatic Operator Fusion Framework for Cascaded Reductions on AI Accelerators
- Title(参考訳): RedFuser: AIアクセラレータのカスケード削減のための自動オペレータフュージョンフレームワーク
- Authors: Xinsheng Tang, Yangcheng Li, Nan Wang, Zhiyi Shu, Xingyu Ling, Junna Xing, Peng Zhou, Qiang Liu,
- Abstract要約: オペレータフュージョンは、AIモデルのデプロイにおける重要なパフォーマンス最適化テクニックである。
RedFuserは、サポート対象のカスケード還元パターンを自動的に識別し、最適化された融合カーネルを生成するフレームワークである。
実験によると、RedFuserはさまざまなワークロードをうまく融合させ、2$times$から5$times$までのスピードアップを実現している。
- 参考スコア(独自算出の注目度): 9.326859100205636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Operator fusion, as a key performance optimization technique in the deployment of AI models, significantly improves execution efficiency and has been widely adopted in modern AI compilers. However, for cascaded reduction operations involving multiple loops with inter-loop data dependencies, such as the safe softmax followed by GEMM within attention mechanisms, existing compilers lack effective automated fusion and kernel generation capabilities. Although some works have addressed specific instances through hand-crafted fusion strategies, their solutions are limited in generality and difficult to extend to other similar structures. Given the prevalence of such computational patterns in deep learning models, there remains significant untapped potential in achieving general and automated fusion optimization. In this paper, we present a formal theoretical methodology for analyzing cascaded reductions which can fuse them into a single loop and introduce an incremental computation form. Based on this methodology, we design Reduction Fuser (RedFuser), a framework that automatically identifies supported cascaded reduction patterns and generates optimized fused kernels. Experiments show that RedFuser successfully fuses diverse workloads, achieving up to 2$\times$ to 5$\times$ speedup over state-of-the-art AI compilers and matching the performance of highly optimized hand-written kernels. The code is available at https://github.com/alibaba/redfuser
- Abstract(参考訳): AIモデルのデプロイにおける重要なパフォーマンス最適化テクニックである演算子融合は、実行効率を大幅に改善し、現代のAIコンパイラで広く採用されている。
しかし、安全ソフトマックスやGEMMなどのループ間データ依存関係を持つ複数ループを含むカスケードリダクション操作では、既存のコンパイラには効率的な自動融合とカーネル生成機能がない。
いくつかの研究は手作りの融合戦略を通じて特定の事例に対処してきたが、それらの解は一般性に制限され、他の類似した構造に拡張することが困難である。
深層学習モデルにおけるそのような計算パターンの出現率を考えると、一般および自動融合最適化の実現には、未解決の可能性が残されている。
本稿では, 1つのループに融合し, インクリメンタルな計算形式を導入可能な, カスケード還元解析のための公式な理論的方法論を提案する。
この手法に基づいて,サポート対象のカスケード還元パターンを自動的に識別し,最適化された融合カーネルを生成するフレームワークであるReduce Fuser (RedFuser) を設計する。
実験によると、RedFuserはさまざまなワークロードをうまく融合させ、2$\times$から5$\times$まで、最先端のAIコンパイラのスピードアップを実現し、高度に最適化された手書きカーネルのパフォーマンスに適合している。
コードはhttps://github.com/alibaba/redfuserで入手できる。
関連論文リスト
- AdaFuse: Accelerating Dynamic Adapter Inference via Token-Level Pre-Gating and Fused Kernel Optimization [84.25316984309725]
動的スパース構造とパラメータ効率のよいアダプタ(例えばLoRA)の統合は、大規模言語モデル(LLM)を拡張するための強力な技術である。
計算負荷は最小限に抑えられるが、計算のレイテンシが急上昇し、復号速度が2.5倍以上遅くなる。
AdaFuseはアルゴリズムと基盤となるハードウェアシステムとの緊密な協調設計に基づいて構築されたフレームワークで、効率的な動的アダプタ実行を実現する。
論文 参考訳(メタデータ) (2026-03-12T12:46:42Z) - Merging Beyond: Streaming LLM Updates via Activation-Guided Rotations [55.047454145941366]
Streaming Mergingは、反復最適化プロセスとしてマージを概念化する革新的なモデル更新パラダイムである。
ARMは勾配勾配勾配のダイナミクスを近似するために設計された戦略である。
ARMは初期のSFTチェックポイントしか必要とせず、反復的なマージによって完全に収束したSFTモデルを上回る。
論文 参考訳(メタデータ) (2026-02-03T08:15:57Z) - When Bayesian Tensor Completion Meets Multioutput Gaussian Processes: Functional Universality and Rank Learning [53.17227599983122]
関数テンソル分解は実数値インデックスを用いて多次元データを解析することができる。
そこで本研究では,Right-Revealing Functional Low-rank tensor completion (RR-F)法を提案する。
連続多次元信号に対するモデルの普遍近似特性を確立する。
論文 参考訳(メタデータ) (2025-12-25T03:15:52Z) - A Survey on Cache Methods in Diffusion Models: Toward Efficient Multi-Modal Generation [15.689880312464004]
拡散モデルは、異常な生成品質と制御性のために、現代の生成AIの基盤となっている。
Diffusion Cachingは、トレーニングのない、アーキテクチャに依存しない、効率的な推論パラダイムを提供する。
計算機能レベルのクロスステップの再利用と層間スケジューリングを有効にすることにより、モデルパラメータを変更することなく削減できる。
論文 参考訳(メタデータ) (2025-10-22T16:46:05Z) - TileLang: A Composable Tiled Programming Model for AI Systems [17.240134151647187]
我々は、より効率的なAIプログラミングのための一般化タイルプログラミングモデルであるTileLangを紹介する。
TileLangはスケジューリングスペース(スレッドバインディング、レイアウト、テンソル化、パイプライン)をデータフローから切り離し、カスタマイズアノテーションとプリミティブのセットとしてカプセル化した。
我々は、多くの実験において、一般的なデバイス上で包括的な実験を行い、キーカーネルでTileLangが最先端のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2025-04-24T14:08:49Z) - Decreasing the Computing Time of Bayesian Optimization using
Generalizable Memory Pruning [56.334116591082896]
本稿では,任意のサロゲートモデルと取得関数で使用可能なメモリプルーニングとバウンダリ最適化のラッパーを示す。
BOを高次元または大規模データセット上で実行することは、この時間の複雑さのために難解になる。
すべてのモデル実装はMIT Supercloudの最先端コンピューティングハードウェア上で実行される。
論文 参考訳(メタデータ) (2023-09-08T14:05:56Z) - Skyformer: Remodel Self-Attention with Gaussian Kernel and Nystr\"om
Method [35.62926659320816]
モデルトレーニングを安定させるために,ソフトマックス構造をガウスカーネルに置き換えるSkyformerを導入し,計算を高速化するためにNystr"om法を適用した。
Long Range Arenaベンチマークの実験では、提案手法は完全な自己注意よりも同等かそれ以上の性能を得るのに十分であることが示された。
論文 参考訳(メタデータ) (2021-10-29T18:28:49Z) - Highly Parallel Autoregressive Entity Linking with Discriminative
Correction [51.947280241185]
自己回帰リンクを全ての潜在的な言及に対して並列化する,非常に効率的な手法を提案する。
我々のモデルは以前の生成法より70倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-09-08T17:28:26Z) - Efficient Learning of Generative Models via Finite-Difference Score
Matching [111.55998083406134]
有限差分で任意の順序方向微分を効率的に近似する汎用戦略を提案する。
我々の近似は関数評価にのみ関係しており、これは並列で実行でき、勾配計算は行わない。
論文 参考訳(メタデータ) (2020-07-07T10:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。