論文の概要: FLASH-MAXSIM: IO-Aware Fused Kernels for Late-Interaction Scoring
- arxiv url: http://arxiv.org/abs/2605.29517v1
- Date: Thu, 28 May 2026 07:38:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 00:00:30.948904
- Title: FLASH-MAXSIM: IO-Aware Fused Kernels for Late-Interaction Scoring
- Title(参考訳): FLASH-MAXSIM:遅延処理のためのIO対応融合カーネル
- Authors: Roi Pony, Adi Raz Goldfarb, Idan Friedman, Daniel Ezer, Udi Barzelay,
- Abstract要約: Flash-MaxSimは、テンソルを作らずに全く同じスコアを計算するIO対応カーネルである。
一致した精度ではPyTorchよりもA100では最大3.9倍高速で、推論メモリは最大16倍、トレーニングメモリは28倍高速である。
- 参考スコア(独自算出の注目度): 2.159285655678094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Late-interaction retrieval (ColBERT, ColPali) scores a query against a document with the MaxSim operator: for every query token, the maximum similarity over the document tokens, summed over query tokens. The standard implementation materializes the full query-token x document-token similarity tensor in GPU memory; for visual ColPali at 10K documents this tensor alone is 21 GB in FP16, created only to be reduced to one score per document and discarded. It exhausts a 40 GB GPU and bounds the achievable batch size in both inference and training. We present Flash-MaxSim, an IO-aware fused GPU kernel that computes exactly the same scores without ever materializing the tensor, by streaming query and document tiles through on-chip SRAM and folding the row-maximum reduction into the same pass. We extend the IO-aware principle through the training backward pass, an inverse-grid CSR construction that reuses the forward argmax for an atomic-free, destination-owned gradient reduction, and through INT8xINT8 quantization and variable-length (padding-free) scoring. Flash-MaxSim is up to 3.9x faster on an A100 (4.7x on an H100) than naive PyTorch at matched precision, uses up to 16x less inference memory and ~28x less training memory, unlocks corpus and batch sizes that exhaust PyTorch entirely, preserves the exact ranking (100% top-20 agreement with an FP32 reference)
- Abstract(参考訳): 遅延インタラクション検索(ColBERT, ColPali)は、MaxSim演算子を使ってドキュメントに対してクエリをスコアする。
10KドキュメントのビジュアルColPaliの場合、このテンソルはFP16で21GBであり、文書ごとに1スコアに減らされ、破棄される。
40GBのGPUを消費し、推論とトレーニングの両方で達成可能なバッチサイズを制限している。
我々は、オンチップSRAMを介してクエリと文書タイルをストリーミングし、行最大化を同じパスに折り畳むことで、テンソルを作らずに全く同じスコアを計算できる、IO対応の融合GPUカーネルであるFlash-MaxSimを提案する。
我々は、I-Awareの原理をトレーニングバックパス、原子フリーで目的地所有の勾配減少のためにargmaxを再利用する逆グリッドCSR構造、INT8xINT8量子化と可変長(パディングフリー)スコアリングによって拡張する。
Flash-MaxSimはA100(H100では4.7倍)より3.9倍高速で、一致した精度でPyTorchを使い、最大16倍の推論メモリと最大28倍のトレーニングメモリを使い、PyTorchを完全に消費するコーパスとバッチサイズをアンロックし、正確なランキングを保持する(FP32参照との100%トップ20契約)。
関連論文リスト
- Litespark Inference on Consumer CPUs: Custom SIMD Kernels for Ternary Neural Networks [0.00815557531820863]
Litespark-InferenceはHugging-Faceと直接統合され、9.2倍高速、52倍高速、14倍メモリ削減を実現している。
実装であるLitespark-Inferenceは、pipインストール可能で、Hugging-Faceと直接統合され、9.2倍高速なタイム・ツー・ファースト・トークン、52倍高いスループット、14倍のメモリ削減を実現しています。
論文 参考訳(メタデータ) (2026-05-07T16:07:39Z) - ELSA: Exact Linear-Scan Attention for Fast and Memory-Light Vision Transformers [11.576817774473398]
既存のアテンションアクセラレータは、しばしば正確なソフトマックスのセマンティクスを交換し、融合されたコアカーネルに依存する。
本稿では,実算術における厳密なソフトマックスのセマンティクスを近似可能な$mathcalO(ulog n)$ FP32の相対誤差境界で予約するオンラインソフトマックスアテンションをアルゴリズム的に再構成するbfELSAを提案する。
HMMA/GMMA Core命令に依存し、FP32パスを提供しないFlashAttention-2/3とは異なり、ELSAはA100とリソースで同一に動作する。
論文 参考訳(メタデータ) (2026-04-26T16:41:30Z) - FlashSampling: Fast and Memory-Efficient Exact Sampling [62.5203057469482]
FlashSamplingは正確なサンプリングプリミティブで、LMヘッドのマトゥルにサンプリングを融合し、ロジットテンソルを生成しない。
H100、H200、B200、B300 GPU全体で、FlashSamplingはカーネルレベルのデコードワークロードを高速化する。
エンドツーエンドのvLLM実験では、テストしたモデルで出力トークン当たりの時間を最大19%削減します。
論文 参考訳(メタデータ) (2026-03-16T19:37:08Z) - FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling [20.849774181776414]
FlashAttention-4はcuDNN 9.13で最大1.3$times$、BF16でB200 GPUで2.7$times$Tritonで最大2.7$times$を達成している。
従来のC++テンプレートベースのアプローチと比較して20~30$times$高速なコンパイルタイムを実現しています。
論文 参考訳(メタデータ) (2026-03-05T18:24:49Z) - Chronicals: A High-Performance Framework for LLM Fine-Tuning with 3.51x Speedup over Unsloth [0.0]
Unsloth上で3.5倍のスピードアップを実現したオープンソースのトレーニングフレームワークであるCentralsを紹介します。
オンラインのソフトマックスの正しさ、FlashAttention IO complexity O(N2 d2 M-1)、LoRA+学習速度勾配近似など、完全な数学的基礎を提供する。
論文 参考訳(メタデータ) (2026-01-06T00:00:55Z) - FuseSampleAgg: Fused Neighbor Sampling and Aggregation for Mini-batch GNNs [51.56484100374058]
FuseSampleAggは、隣人の平均アグリゲーションをGraphSAGEの1つのパスにフューズし、サンプリングする。
Operatorは決定論的であり、標準のPyTorchと統合され、CSVログからすべてのテーブルとフィギュアを再現するスクリプトが同梱されている。
論文 参考訳(メタデータ) (2025-11-17T17:57:18Z) - dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - Cut Your Losses in Large-Vocabulary Language Models [102.6981011879656]
我々は,全トークンのロジットをグローバルメモリに実体化することなく,クロスエントロピー損失を計算する手法であるカットクロスエントロピー(CCE)を提案する。
CCEはロスのメモリフットプリントを24GBから1MBに減らし、ヘッドのトレーニング時間のメモリ消費を28GBから1GBに短縮する。
論文 参考訳(メタデータ) (2024-11-13T20:30:15Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。