論文の概要: FlashSampling: Fast and Memory-Efficient Exact Sampling
- arxiv url: http://arxiv.org/abs/2603.15854v1
- Date: Mon, 16 Mar 2026 19:37:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.965854
- Title: FlashSampling: Fast and Memory-Efficient Exact Sampling
- Title(参考訳): FlashSampling:高速かつメモリ効率の良いExact Smpling
- Authors: Tomas Ruiz, Zhen Qin, Yifan Zhang, Xuyang Shen, Yiran Zhong, Mengdi Wang,
- Abstract要約: FlashSamplingは正確なサンプリングプリミティブで、LMヘッドのマトゥルにサンプリングを融合し、ロジットテンソルを生成しない。
H100、H200、B200、B300 GPU全体で、FlashSamplingはカーネルレベルのデコードワークロードを高速化する。
エンドツーエンドのvLLM実験では、テストしたモデルで出力トークン当たりの時間を最大19%削減します。
- 参考スコア(独自算出の注目度): 62.5203057469482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sampling from a categorical distribution is mathematically simple, but in large-vocabulary decoding, it often triggers extra memory traffic and extra kernels after the LM head. We present FlashSampling, an exact sampling primitive that fuses sampling into the LM-head matmul and never materializes the logits tensor in HBM. The method is simple: compute logits tile-by-tile on chip, add Gumbel noise, keep only one maximizer per row and per vocabulary tile, and finish with a small reduction over tiles. The fused tiled kernel is exact because $\argmax$ decomposes over a partition; grouped variants for online and tensor-parallel settings are exact by hierarchical factorization of the categorical distribution. Across H100, H200, B200, and B300 GPUs, FlashSampling speeds up kernel-level decode workloads, and in end-to-end vLLM experiments, it reduces time per output token by up to $19%$ on the models we test. These results show that exact sampling, with no approximation, can be integrated into the matmul itself, turning a bandwidth-bound postprocessing step into a lightweight epilogue. Project Page: https://github.com/FlashSampling/FlashSampling.
- Abstract(参考訳): カテゴリ分布からのサンプリングは数学的には単純であるが、大語彙のデコードでは、LMヘッドの後にメモリトラフィックと余分なカーネルをトリガーすることが多い。
FlashSampling は LM-head matmul にサンプリングを融合させ,HBM のロジットテンソルを決して実現しない,正確なサンプリングプリミティブである。
この方法は単純で、チップ上のロジットタイルを計算し、ガンベルノイズを追加し、行ごとの最大値と語彙ごとのタイルを1つだけ保持し、タイルをわずかに減らして仕上げる。
分割の上に$\argmax$が分解されるため、融合されたタイル化されたカーネルは正確である;オンラインおよびテンソル並列設定のためのグループ化された変種は、カテゴリー分布の階層的分解によって正確である。
H100、H200、B200、B300 GPU全体で、FlashSamplingはカーネルレベルのデコードワークロードを高速化し、エンドツーエンドのvLLM実験では、テストしたモデルで出力トークン当たりの時間を最大19%削減します。
これらの結果から、近似のない正確なサンプリングをMatmul自体に統合し、帯域幅制限後処理ステップを軽量なエピローグに変換することができた。
Project Page: https://github.com/FlashSampling/FlashSampling.com
関連論文リスト
- Is Your Diffusion Sampler Actually Correct? A Sampler-Centric Evaluation of Discrete Diffusion Language Models [14.764619905977739]
そこで,本研究では,学習したデノイザを,基底構造マルコフ連鎖から派生した正確な隠れマルコフモデルに置き換える,サンプル中心のオラクルフレームワークを提案する。
数ステップの離散拡散サンプリング器は, オラクル・デノイザの下でも分布が正しくないことを示し, ステップ数が列長に近づくと, 遷移レベルのミスマッチが消えることを示した。
論文 参考訳(メタデータ) (2026-02-23T09:06:13Z) - Constrained and Composite Sampling via Proximal Sampler [2.087898608419977]
本研究では,制約サンプリングと複合サンプリングの2つの対数凹型サンプリング問題について検討する。
主な課題は、ミキシングを劣化させることなくフィージビリティを強制することである。
複合サンプリングでは、ターゲットは$exp(-f(x)-h(x))$に比例する。
論文 参考訳(メタデータ) (2026-02-16T05:36:36Z) - Beyond GEMM-Centric NPUs: Enabling Efficient Diffusion LLM Sampling [14.471123653746275]
Diffusion Large Language Models (dLLMs) は、並列トークン生成を可能にする反復型デノゲーションを導入している。
我々の設計では、軽量な非GEMMベクトルプリミティブ、インプレースメモリ再利用戦略、分離された混合精度メモリ階層を用いる。
論文 参考訳(メタデータ) (2026-01-28T15:37:50Z) - Upsample Anything: A Simple and Hard to Beat Baseline for Feature Upsampling [38.24831571443335]
Upsample Anythingは、低解像度の機能をトレーニングなしで高解像度のピクセル単位の出力に復元する。
224x224イメージあたりの$approx0.419テキストのみで動作し、セマンティックセグメンテーション、深さ推定、深さと確率マップのアップサンプリングにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-20T12:27:53Z) - dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding [48.55176091771745]
テストタイムスケーリングは、推論中に追加の計算リソースを割り当てることで、大きな言語モデルのパフォーマンスを向上させる。
Best-of-N (BoN) サンプリングはサンプリングベースの一般的なスケーリング手法である。
我々は,全Nサンプルの完全生成を回避する復号法であるセルフトランケーションBest-of-N(ST-BoN)を提案する。
コスト面では、ST-BoNはFull-BoNと同じ性能を達成し、計算コストを70%-80%削減し、同じコストで3~4ポイント精度を向上させることができる。
論文 参考訳(メタデータ) (2025-03-03T11:21:01Z) - Boundary-aware Decoupled Flow Networks for Realistic Extreme Rescaling [49.215957313126324]
Invertible rescaling Network (IRN) やgenerative adversarial Network (GAN) などを含む最近の生成手法は、画像再スケーリングにおいて例外的な性能を示した。
しかし、IRNベースの手法は過度に滑らかな結果を生成する傾向にあり、一方、GANベースの手法は偽の細部を容易に生成する。
本稿では,現実的かつ視覚的に満足な結果を生成するために,境界対応デカップリングフローネットワーク(BDFlow)を提案する。
論文 参考訳(メタデータ) (2024-05-05T14:05:33Z) - Distributed Matrix-Based Sampling for Graph Neural Network Training [0.0]
本稿では,スパース行列乗算(SpGEMM)としてサンプリングを表現し,複数のミニバッチを同時にサンプリングする行列ベースバルクサンプリング手法を提案する。
入力グラフトポロジが1つのデバイスに収まらない場合、このグラフを分散し、通信回避型SpGEMMアルゴリズムを用いてGNNミニバッチサンプリングをスケールする。
新たなサンプリング方法に加えて,行列に基づくバルクサンプリング手法を用いて,エンドツーエンドのトレーニング結果を提供するパイプラインを導入する。
論文 参考訳(メタデータ) (2023-11-06T06:40:43Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data
via Differentiable Cross-Approximation [53.95297550117153]
本稿では,大規模な視覚データテンソルの処理を行うエンドツーエンドのトレーニング可能なフレームワークを提案する。
提案手法は大規模多次元グリッドデータや,大規模受容領域上のコンテキストを必要とするタスクに特に有用である。
論文 参考訳(メタデータ) (2021-05-29T08:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。