論文の概要: Sawtooth Wavefront Reordering: Enhanced CuTile FlashAttention on NVIDIA GB10
- arxiv url: http://arxiv.org/abs/2601.16032v2
- Date: Mon, 26 Jan 2026 02:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:06.916217
- Title: Sawtooth Wavefront Reordering: Enhanced CuTile FlashAttention on NVIDIA GB10
- Title(参考訳): Sawtooth Wavefrontのリオーダー:NVIDIA GB10でCuTile FlashAttentionが強化
- Authors: Yifan Zhu, Yekai Pan, Chen Ding,
- Abstract要約: 本稿では,CuTileをベースとしたFlashアテンションメモリの動作解析とキャッシュ性能向上手法を提案する。
特に、NVIDIA GB10の分析では、L2キャッシュミスの主な原因を特定しています。
我々はSawtooth Wavefront Reorderingと呼ばれる新しいプログラミング手法を導入し、L2ミスを減らす。
- 参考スコア(独自算出の注目度): 6.7983164524748325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-performance attention kernels are essential for Large Language Models. This paper presents analysis of CuTile-based Flash Attention memory behavior and a technique to improve its cache performance. In particular, our analysis on the NVIDIA GB10 (Grace Blackwell) identifies the main cause of L2 cache miss. Leveraging this insight, we introduce a new programming technique called Sawtooth Wavefront Reordering that reduces L2 misses. We validate it in both CUDA and CuTile, observing 50\% or greater reduction in L2 misses and up to 60\% increase in throughput on GB10.
- Abstract(参考訳): 高性能アテンションカーネルは大規模言語モデルにとって不可欠である。
本稿では,CuTileをベースとしたFlashアテンションメモリの動作解析とキャッシュ性能向上手法を提案する。
特に、NVIDIA GB10(Grace Blackwell)の分析では、L2キャッシュミスの主な原因を特定しています。
この知見を活用して、L2ミスを減らすSawtooth Wavefront Reorderingという新しいプログラミング手法を導入する。
CUDAとCuTileの両方で検証し,L2ミスの50%以上,GB10では最大60%のスループット向上を観察した。
関連論文リスト
- 10Cache: Heterogeneous Resource-Aware Tensor Caching and Migration for LLM Training [0.22913283036871865]
クラウドでの大規模言語モデル(LLM)のトレーニングは、GPUの容量の制限と高コストのため、メモリボトルネックの増大に直面します。
リソースを意識したテンソルキャッシュとマイグレーションシステムである10Cacheを,GPU,CPU,ティア間でメモリ使用量をインテリジェントに調整することで,トレーニングを高速化する。
トレーニング時間の最大2倍のスピードアップを実現し、GPUキャッシュヒット率を最大86.6倍に改善し、CPU/GPUメモリ使用率を最大2.15倍と1.33倍に向上させる。
論文 参考訳(メタデータ) (2025-11-18T04:17:44Z) - LeanK: Learnable K Cache Channel Pruning for Efficient Decoding [12.370497592637179]
大きな言語モデル(LLM)は、長いコンテキストタスクを可能にするが、キーバリュー(KV)キャッシュの増加による効率上の問題に直面している。
本稿では,静的チャネル空間を利用して重要でないキー(K)キャッシュチャネルを創り出す学習ベースの手法であるLeanKを提案する。
論文 参考訳(メタデータ) (2025-08-04T09:08:43Z) - HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading [79.38548165722229]
HEADINFERはKVキャッシュをCPURAMにオフロードするが、GPU上のトランスフォーマー層のKVキャッシュを完全に保存する必要はない。
HEADINFERはメモリフットプリントを大幅に削減し,計算効率を向上することを示した。
論文 参考訳(メタデータ) (2025-02-18T06:26:05Z) - KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache [67.9776980972508]
我々はKIVIというチューニング不要な2ビットKVキャッシュ量子化アルゴリズムを開発した。
KIVI は Llama, Falcon, Mistral のモデルを $mathbf2.6times$ less peak memory を使用しながらほぼ同じ品質を維持することができる。
論文 参考訳(メタデータ) (2024-02-05T06:06:47Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z) - Robust and Efficient Memory Network for Video Object Segmentation [6.7995672846437305]
本稿では,半教師付きビデオオブジェクトセグメンテーション(VOS)研究のためのロバストかつ効率的なメモリネットワーク(REMN)を提案する。
我々は,前景の物体の特徴を前景のマスクで高めることにより,背景の乱れに対処する局所的な注意機構を導入する。
実験によると、我々のREMNはDAVIS 2017で最先端の結果を達成しており、$mathcalJ&F$スコアは86.3%、YouTube-VOS 2018では$mathcalG$平均85.5%である。
論文 参考訳(メタデータ) (2023-04-24T06:19:21Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - EL-Attention: Memory Efficient Lossless Attention for Generation [27.59275177303199]
この問題に対処するために,メモリ効率の低い注意(ELアテンション)を提案する。
キャッシュを使用する必要がなく、マルチヘッドキーと値を構築するための重い操作を避ける。
要約タスクと質問生成タスクのためのTransformer, BART, GPT-2について広範な実験を行った。
論文 参考訳(メタデータ) (2021-05-11T04:37:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。