論文の概要: TiledAttention: a CUDA Tile SDPA Kernel for PyTorch
- arxiv url: http://arxiv.org/abs/2603.01960v1
- Date: Mon, 02 Mar 2026 15:11:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.93209
- Title: TiledAttention: a CUDA Tile SDPA Kernel for PyTorch
- Title(参考訳): TiledAttention: PyTorch用のCUDAタイルSDPAカーネル
- Authors: Taimur Khan,
- Abstract要約: TiledAttentionは、NVIDIA GPUに関するSDPA研究のためのSDPAフォワードオペレータである。
低レベルのテンプレートよりも変更が容易で、オンラインのソフトマックスやK,V$ストリーミングを通じてリアルな振る舞いを保ちます。
我々は、再現可能なハーネスを備えたNVIDIA DGX GB10ノード上でTiledAttentionをベンチマークし、PyTorch SDPAと比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: TiledAttention is a scaled dot-product attention (SDPA) forward operator for SDPA research on NVIDIA GPUs. Implemented in cuTile Python (TileIR) and exposed as a PyTorch-callable function, it is easier to modify than low-level CUDA templates while retaining realistic behavior via online softmax and tiled $K,V$ streaming. The approach is both performant and directly editable at the schedule level from Python (tile shapes, staging, shared-memory layout), enabling rapid, reproducible kernel research without template-heavy CUDA/CUTLASS rewrites. We benchmark TiledAttention on an NVIDIA DGX GB10 node with a reproducible harness and compare against PyTorch SDPA (auto-dispatch) and explicit unfused baselines across sequence length, head dimension, and precision (FP16/BF16). While production fused baselines remain stronger overall, TiledAttention delivers large speedups over standard eager attention paths and is available for direct use within PyTorch workflows, providing a practical balance between performance and customizability.
- Abstract(参考訳): TiledAttentionは、NVIDIA GPUに関するSDPA研究のためのSDPAフォワードオペレータである。
cuTile Python (TileIR)で実装され、PyTorchコール可能な関数として公開されているため、オンラインソフトマックスとK,V$ストリーミングによる現実的な振る舞いを維持しながら、低レベルのCUDAテンプレートよりも変更が容易である。
このアプローチはPython(タイル形状、ステージング、共有メモリレイアウト)からスケジュールレベルで直接編集可能であり、テンプレート重のCUDA/CUTLASSを書き換えることなく、迅速に再現可能なカーネル研究を可能にする。
我々は、再現可能なハーネスを持つNVIDIA DGX GB10ノード上のTiledAttentionをベンチマークし、PyTorch SDPA(auto-dispatch)と、シーケンス長、ヘッドディメンション、精度(FP16/BF16)をまたいだ明示的な未融合ベースラインと比較した。
TiledAttentionは標準的な注目パスよりも大幅にスピードアップし、PyTorchワークフロー内で直接使用できる。
関連論文リスト
- SoftDTW-CUDA-Torch: Memory-Efficient GPU-Accelerated Soft Dynamic Time Warping for PyTorch [11.845589863914851]
我々は、GPU上でのSoft Dynamic Time Warpingを計算するためのオープンソースのPyTorchライブラリであるSoftdtw-cuda-torchを紹介する。
本実装は,既存のGPU実装であるSoftDTWの3つの重要な制限に対処する。
ライブラリは任意のシーケンス長、完全なPyTorchオートグレード統合、Soft-DTW Barycenterをサポートする。
論文 参考訳(メタデータ) (2026-02-19T09:53:03Z) - VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents [42.56489784841984]
実装の変更が生成され、エージェントが提案する差分として適用される。
アーキテクチャを説明し、システムの生成と検証に使用するワークフローを要約し、アーティファクトを評価する。
論文 参考訳(メタデータ) (2026-01-21T19:29:00Z) - AutoSAGE: Input-Aware CUDA Scheduling for Sparse GNN Aggregation (SpMM/SDDMM) and CSR Attention [52.20940151628735]
AutoSAGEは入力ごとにタイリングとマッピングを選択するインプット対応スケジューラである。
Reddit OGBN-Productsでは、カーネルレベルの最大4.7倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2025-11-17T18:25:51Z) - Stroke Lesion Segmentation in Clinical Workflows: A Modular, Lightweight, and Deployment-Ready Tool [0.08699280339422537]
nnU-Netのようなディープラーニングフレームワークは、脳病変のセグメンテーションにおいて最先端のパフォーマンスを達成するが、臨床展開は困難である。
textitStrokeSegは、研究グレードの脳梗塞のセグメンテーションモデルをデプロイ可能なアプリケーションに変換するモジュール式で軽量なフレームワークである。
論文 参考訳(メタデータ) (2025-10-28T12:56:48Z) - pySigLib -- Fast Signature-Based Computations on CPU and GPU [9.126976857662084]
我々は、CPUとGPU上でシグネチャカーネルとシグネチャカーネルの最適化実装を提供する高性能PythonライブラリpySigLibを提案する。
本稿では,既存のライブラリのランタイムのごく一部で精度の高い勾配を提供するシグネチャカーネルの新たな差別化手法を提案する。
論文 参考訳(メタデータ) (2025-09-12T18:00:14Z) - Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。
最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。
我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文 参考訳(メタデータ) (2025-03-09T06:16:49Z) - Two-stream Beats One-stream: Asymmetric Siamese Network for Efficient Visual Tracking [54.124445709376154]
効率的な追跡を行うために,textbfAsymTrack という新しい非対称なシームズトラッカーを提案する。
このアーキテクチャに基づいて、検索機能に重要な手がかりを注入する効率的なテンプレート変調機構を考案する。
実験によると、AsymTrackは異なるプラットフォーム間で、より優れたスピード精度のトレードオフを提供する。
論文 参考訳(メタデータ) (2025-03-01T14:44:54Z) - KernelBench: Can LLMs Write Efficient GPU Kernels? [36.4117525096377]
KernelBenchは、高速で正確なカーネルを記述する言語モデルの能力を評価するためのオープンソースのフレームワークである。
本稿では,関数的に正しい生成カーネルの割合を計測する,新しい評価基準であるfast_pを紹介する。
実験の結果,フロンティア推論モデルが最も優れているが,全体としては不足していることがわかった。
論文 参考訳(メタデータ) (2025-02-14T19:30:53Z) - FlexiViT: One Model for All Patch Sizes [100.52574011880571]
ビジョントランスフォーマーは、それらをパッチにスライスすることで、画像をシーケンスに変換する。
これらのパッチのサイズは速度/精度のトレードオフを制御し、より小さなパッチはより高い計算コストで高い精度に繋がる。
トレーニング時にパッチサイズをランダムにすると、一組の重み付けが発生し、広範囲のパッチサイズでうまく機能することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:18:38Z) - Stochastic Gradient Descent without Full Data Shuffle [65.97105896033815]
CorgiPileは階層的なデータシャッフル戦略で、完全なデータシャッフルを回避すると同時に、完全なシャッフルを実行したかのようにSGDの収束率を同等に維持する。
以上の結果から,CorgiPileは深層学習モデルと一般化線形モデルの両方において,全シャッフルベースSGDと同等の収束率を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-12T20:04:31Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。