論文の概要: Sparton: Fast and Memory-Efficient Triton Kernel for Learned Sparse Retrieval
- arxiv url: http://arxiv.org/abs/2603.25011v1
- Date: Thu, 26 Mar 2026 04:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.095312
- Title: Sparton: Fast and Memory-Efficient Triton Kernel for Learned Sparse Retrieval
- Title(参考訳): Sparton: 学習したスパース検索のための高速かつメモリ効率の良いトリトンカーネル
- Authors: Thong Nguyen, Cosimo Rulli, Franco Maria Nardini, Rossano Venturini, Andrew Yates,
- Abstract要約: Spladeのような最先端のLearted Sparse Retrieval (LSR)モデルでは、Language Modeling (LM)ヘッドを使用して、潜伏した隠された状態を語彙的にアンコールされたロジット行列に投影する。
その効果にもかかわらず、LMヘッドは語彙の重大さによる大きなメモリボトルネックを発生させる(V)。
LSRモデルにおけるLMヘッドに適した高速メモリ効率のTritonカーネルであるSpartonを提案する。
- 参考スコア(独自算出の注目度): 21.607735361193622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art Learned Sparse Retrieval (LSR) models, such as Splade, typically employ a Language Modeling (LM) head to project latent hidden states into a lexically-anchored logit matrix. This intermediate matrix is subsequently transformed into a sparse lexical representation through element-wise operations (ReLU, Log1P) and max-pooling over the sequence dimension. Despite its effectiveness, the LM head creates a massive memory bottleneck due to the sheer size of the vocabulary (V), which can range from 30,000 to over 250,000 tokens in recent models. Materializing this matrix creates a significant memory bottleneck, limiting model scaling. The resulting I/O overhead between operators further throttles throughput and runtime performance. In this paper, we propose Sparton, a fast memory-efficient Triton kernel tailored for the LM head in LSR models. Sparton utilizes a fused approach that integrates the tiled matrix multiplication, ReLU, Log1P, and max-reduction into a single GPU kernel. By performing an early online reduction directly on raw logit tiles, Sparton avoids materializing the full logit matrix in memory. Our experiments demonstrate that the Sparton kernel, in isolation, achieves up to a 4.8x speedup and an order-of-magnitude reduction in peak memory usage compared to PyTorch baselines. Integrated into Splade (|V| ~ 30k), Sparton enables a 33% larger batch size and 14% faster training with no effectiveness loss. On a multilingual backbone (|V| ~ 250k), these gains jump to a 26x larger batch size and 2.5x faster training.
- Abstract(参考訳): Spladeのような最先端のLearted Sparse Retrieval(LSR)モデルは、通常、潜伏した隠された状態を語彙的にアンコールされたロジット行列に投影するために言語モデリング(LM)ヘッドを使用する。
この中間行列はその後、要素演算(ReLU, Log1P)と列次元上の最大プーリングを通じてスパース語彙表現に変換される。
その効果にもかかわらず、LMヘッドは語彙(V)の重大さのために巨大なメモリボトルネックを発生させ、近年のモデルでは30,000から25万以上のトークンを発生させることができる。
このマトリックスを物質化すると、大きなメモリボトルネックが発生し、モデルのスケーリングが制限されます。
その結果、演算子間のI/Oオーバーヘッドはさらにスループットと実行時のパフォーマンスを損なう。
本稿では,LSRモデルにおけるLMヘッドに適した高速メモリ効率のTritonカーネルであるSpartonを提案する。
Spartonは、タイル付き行列乗算、ReLU、Log1P、最大還元を単一のGPUカーネルに統合する融合アプローチを使用している。
Spartonは、生のロジットタイルに直接オンライン還元を行うことで、メモリの完全なロジットマトリックスを実体化するのを避ける。
実験により,SpartonカーネルはPyTorchベースラインと比較して,最大4.8倍の高速化とピークメモリ使用量の大幅な削減を実現した。
Splade (|V| ~30k)に統合されたSpartonでは、バッチサイズが33%大きく、トレーニングが14%高速で、効率が損なわれない。
多言語バックボーン(|V| ~250k)では、これらのゲインは26倍のバッチサイズにジャンプし、2.5倍高速なトレーニングを行う。
関連論文リスト
- Memory-Efficient Acceleration of Block Low-Rank Foundation Models on Resource Constrained GPUs [11.45717904490388]
トランスフォーマーベースの基盤モデルの最近の進歩は、多くのタスクのデフォルト選択となった。
その急速に成長するサイズは、単一のGPUに完全なモデルを適合させることがますます難しくなり、計算コストが禁じられる。
ブロック低ランク(BLR)圧縮技術は、重み行列のコンパクト表現を学習することでこの問題に対処する。
論文 参考訳(メタデータ) (2025-12-24T00:41:13Z) - 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [52.079202872069835]
大規模言語モデル(LLM)や拡散モデル(DM)といった大規模AIモデルは急速に成長している。
圧縮フレームワークであるDynamic-Length Float (DFloat11) を導入し, LLM と DM サイズを30%削減した。
論文 参考訳(メタデータ) (2025-04-15T22:38:38Z) - Cut Your Losses in Large-Vocabulary Language Models [102.6981011879656]
我々は,全トークンのロジットをグローバルメモリに実体化することなく,クロスエントロピー損失を計算する手法であるカットクロスエントロピー(CCE)を提案する。
CCEはロスのメモリフットプリントを24GBから1MBに減らし、ヘッドのトレーニング時間のメモリ消費を28GBから1GBに短縮する。
論文 参考訳(メタデータ) (2024-11-13T20:30:15Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - DISTFLASHATTN: Distributed Memory-efficient Attention for Long-context LLMs Training [82.06732962485754]
FlashAttentionは、1つのGPU上でのトレーニングトランスフォーマーベースの大規模言語モデル(LLM)において、2次ピークメモリの使用を線形に削減する。
本研究では,長期LLM学習に最適化されたメモリ効率の高い注意機構であるDisTFLASHATTNを紹介する。
最近のRing AttentionやDeepSpeed-Ulyssesと比較して、1.67xと1.26 - 1.88xのスピードアップを実現している。
論文 参考訳(メタデータ) (2023-10-05T03:47:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。