論文の概要: Deep Kernel Fusion for Transformers
- arxiv url: http://arxiv.org/abs/2602.11808v1
- Date: Thu, 12 Feb 2026 10:43:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.775764
- Title: Deep Kernel Fusion for Transformers
- Title(参考訳): 変圧器用ディープカーネル核融合
- Authors: Zixi Zhang, Zhiwen Mo, Yiren Zhao, Robert Mullins,
- Abstract要約: キャッシュ容量を超える大きな重みを持つSwiGLUブロックは、過度に最適化されていないボトルネックとなる。
我々は、トラフィックを削減し、キャッシュの再利用を促進するDeepFusion Kernelを提案し、H100で最大13.2%、SGLangでA100で最大9.7%のスピードアップを提供する。
- 参考スコア(独自算出の注目度): 10.390809505353596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic LLM inference with long contexts is increasingly limited by memory bandwidth rather than compute. In this setting, SwiGLU MLP blocks, whose large weights exceed cache capacity, become a major yet under-optimized bottleneck. We propose DeepFusionKernel, a deeply fused kernel that cuts HBM traffic and boosts cache reuse, delivering up to 13.2% speedup on H100 and 9.7% on A100 over SGLang. Integrated with SGLang and paired with a kernel scheduler, DeepFusionKernel ensures consistent accelerations over generation lengths, while remaining adaptable to diverse models, inference configurations, and hardware platforms.
- Abstract(参考訳): 長いコンテキストを持つエージェントLSM推論は、計算よりもメモリ帯域幅によってますます制限されている。
この設定では、キャッシュ容量を超える大きな重みを持つSwiGLU MLPブロックが、最適化されていない主要なボトルネックとなる。
我々は、HBMトラフィックを削減し、キャッシュ再利用を促進する、深く融合したカーネルであるDeepFusionKernelを提案し、H100で最大13.2%、SGLang上でA100で最大9.7%のスピードアップを提供する。
SGLangと統合され、カーネルスケジューラと組み合わせることで、DeepFusionKernelは世代長よりも一貫したアクセラレーションを保証すると同時に、さまざまなモデル、推論設定、ハードウェアプラットフォームにも適応可能である。
関連論文リスト
- Theodosian: A Deep Dive into Memory-Hierarchy-Centric FHE Acceleration [3.8153115302044296]
完全同型暗号化(FHE)は、暗号化されたデータに対するセキュアな計算を可能にし、クラウドおよびエッジ環境におけるプライバシー上の懸念を軽減する。
本稿では,最新のGPU上で一般的なFHE方式であるCKKSのマイクロアーキテクチャ解析を行う。
高帯域幅のL2キャッシュであっても、支配的なカーネルはメモリ帯域幅で束縛され、永続的なメモリ壁が露出することを示す。
これらの知見に触発されて,キャッシュ効率の向上とオーバーヘッド削減を目的とした,相補的でメモリ対応の最適化セットであるTheodosianを紹介した。
論文 参考訳(メタデータ) (2025-12-20T12:18:29Z) - Accelerating LLM Inference Throughput via Asynchronous KV Cache Prefetching [16.6871758712011]
大規模言語モデル(LLM)は、高帯域メモリ(HBM)帯域幅の制約により、推論中に顕著なメモリバウンド特性を示す。
本稿では,L2キャッシュ指向の非同期KVキャッシュプリフェッチ手法を提案する。
論文 参考訳(メタデータ) (2025-04-08T09:17:35Z) - Kernel Looping: Eliminating Synchronization Boundaries for Peak Inference Performance [2.747566636546902]
カーネルループは、現代のデータフローアーキテクチャにおいて可能なユニークな層レベルの融合と、言語モデルで繰り返し見られる層構造を利用する。
我々は,AIの商用データフローアクセラレータであるSambaNova SN40L Reconfigurable Dataflow Unit(RDU)のカーネルループを評価する。
論文 参考訳(メタデータ) (2024-10-31T06:32:47Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - BurstAttention: An Efficient Distributed Attention Framework for Extremely Long Sequences [96.74779792715819]
本稿では,BurstAttention'という分散アテンションフレームワークを提案し,メモリアクセスと通信操作を最適化する。
異なる長さ設定下での実験結果は、BurstAttentionが長いシーケンスを処理する上で大きな利点があることを示している。
論文 参考訳(メタデータ) (2024-03-14T12:51:58Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - Revisiting Multi-Scale Feature Fusion for Semantic Segmentation [90.32746095413447]
本稿では,高精度なセマンティックセグメンテーションには高い内部分解能もアトラス畳み込みも不要であることを示す。
我々は,内部分解能が高く,高コストなアトラス畳み込みをもたない,ESegと呼ばれる簡易なセグメンテーションモデルを開発した。
我々の単純な手法は、複数のデータセットにまたがる先行技術よりも高速で精度を向上できる。
論文 参考訳(メタデータ) (2022-03-23T19:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。