論文の概要: GPUTOK: GPU Accelerated Byte Level BPE Tokenization
- arxiv url: http://arxiv.org/abs/2603.02597v1
- Date: Tue, 03 Mar 2026 04:48:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.639483
- Title: GPUTOK: GPU Accelerated Byte Level BPE Tokenization
- Title(参考訳): GPUTOK: GPUアクセラレーションによるバイトレベルのBPEトークン化
- Authors: Venu Gopal Kadamba, Kanishkha Jaisankar,
- Abstract要約: GPT-2のマージルールに従うGPUベースのバイトレベルのBPEトークンライザを構築した。
基本的なBlockBPEスタイルのカーネルと、cuCollectionsの静的マップを使ったより高速で最適化されたバージョン、CUBの削減、Python用のpybind11インターフェースが含まれている。
WikiText103の最大131kのトークンでは、最適化されたトークン化器は同じ最長の入力を生成し、Tiktokenより約1.7倍、HuggingFace GPT-2トークン化器より約7.6倍高速である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models move toward million-token context windows, CPU tokenizers become a major slowdown because they process text one step at a time while powerful GPUs sit unused. We built a GPU-based byte-level BPE tokenizer that follows GPT-2's merge rules. It includes a basic BlockBPE-style kernel and a faster, optimized version that uses cuCollections static map, CUB reductions, and a pybind11 interface for Python. On WikiText103 sequences up to 131k tokens, the optimized GPU tokenizer produces the same tokens as a CPU version and, for the longest inputs, is about 1.7x faster than tiktoken and about 7.6x faster than the HuggingFace GPT-2 tokenizer. Nsight profiling shows that 70-80% of CUDA API time goes to memory allocation, so adding memory pooling should give the biggest speed boost next. Tests on generation tasks using WikiText103 prompts show that our GPU tokenizer's outputs stay within about one percentage point of tiktoken and HuggingFace GPT-2 on similarity and overlap metrics, meaning it keeps output quality while making long-context inference more practical.
- Abstract(参考訳): 大規模言語モデルが数百万のコンテキストウインドウへと移行するにつれ、強力なGPUが使用されていない間にテキストを1ステップずつ処理するので、CPUトークンライザは大きなスローダウンとなる。
GPT-2のマージルールに従うGPUベースのバイトレベルのBPEトークンライザを構築した。
基本的なBlockBPEスタイルのカーネルと、cuCollectionsの静的マップを使ったより高速で最適化されたバージョン、CUBの削減、Python用のpybind11インターフェースが含まれている。
WikiText103の最大131kのトークンでは、最適化されたGPUトークンライザがCPUバージョンと同じトークンを生成し、最も長い入力では、Tiktokenより約1.7倍、HuggingFace GPT-2トークンライザより約7.6倍高速である。
Nsight Profilingは、CUDA API時間の70~80%がメモリアロケーションであることを示している。
WikiText103プロンプトを用いた生成タスクのテストでは、GPUトークンの出力がTiktokenとHuggingFace GPT-2の約1パーセントの範囲内にあることが示されている。
関連論文リスト
- Out of the Memory Barrier: A Highly Memory Efficient Training System for LLMs with Million-Token Contexts [68.79341332280062]
長いコンテキストでの大規模言語モデル(LLM)のトレーニングは、トレーニング時間ではなく、GPUメモリの異常なオーバーヘッドによって厳しく制限される。
この障壁に直面するメモリ効率の高いトレーニングシステムOOMBを紹介します。
本手法では,オンザフライアクティベーション・リコンピュテーションを備えたチャンク・リカレント・トレーニング・フレームワークを用いて,一定のアクティベーションメモリフットプリントを維持する。
論文 参考訳(メタデータ) (2026-02-02T13:52:40Z) - Spava: Accelerating Long-Video Understanding via Sequence-Parallelism-aware Approximate Attention [63.69228529380251]
Spavaはシーケンス並列フレームワークで、ロングビデオ推論に最適化されている。
Spavaは、FlashAttn、ZigZagRing、APBで12.72x、1.70x、1.18xのスピードアップを提供する。
論文 参考訳(メタデータ) (2026-01-29T09:23:13Z) - FlexCTC: GPU-powered CTC Beam Decoding With Advanced Contextual Abilities [16.660841429852333]
本稿では、コネクショニスト時間分類(CTC)モデルのために設計された、完全ベースのビームデコーディングのためのオープンソースのFlexCTCツールキットを提案する。
PythonとPyTorchで完全に開発され、高速でユーザフレンドリで、従来のC++やWFSTベースのGPUに代わるものを提供する。
また、GPUによるN-gram言語モデルの融合やフレーズレベルの強化など、高度なコンテキスト化技術もサポートしている。
論文 参考訳(メタデータ) (2025-08-10T12:15:57Z) - BlockBPE: Parallel BPE Tokenization [0.0]
BlockBPEはバイトペア符号化(BPE)の並列GPU実装である
これは現実的な仮定の下でほぼ線形時間複雑性を達成する。
ハイバッチの推論ワークロードでは、BlockBPEはTiktokenよりも最大2倍、HuggingFace Tokenizersより2.5倍高いスループットを実現している。
論文 参考訳(メタデータ) (2025-07-16T06:12:41Z) - Ramp Up NTT in Record Time using GPU-Accelerated Algorithms and LLM-based Code Generation [11.120838175165986]
ホモモルフィック暗号化(HE)はプライバシ保護機械学習(PPML)のコアビルディングブロックである
HEの性能向上のために、多くのGPU加速暗号方式が提案されている。
大規模言語モデル(LLM)の強力なコード生成能力を考えると、実用的なGPUフレンドリなアルゴリズムコードを自動的に生成する可能性を探究する。
論文 参考訳(メタデータ) (2025-02-16T12:53:23Z) - Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [23.633481089469836]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。
トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。
我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文 参考訳(メタデータ) (2024-05-28T22:19:30Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - FlashAttention: Fast and Memory-Efficient Exact Attention with
IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。
これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。
FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文 参考訳(メタデータ) (2022-05-27T17:53:09Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - GateKeeper-GPU: Fast and Accurate Pre-Alignment Filtering in Short Read
Mapping [7.680154692488026]
GateKeeper-GPUはシーケンスアライメントのための高速で正確な事前調整フィルタである。
多数のGPUスレッドを使用して、多数のシーケンスペアを迅速かつ同時に検査します。
GateKeeper-GPUはシーケンスアライメントを最大2.9倍に高速化し、包括的な読み取りマッパーのエンドツーエンド実行時間に最大1.4倍のスピードアップを提供する。
論文 参考訳(メタデータ) (2021-03-27T20:01:37Z) - Large Graph Convolutional Network Training with GPU-Oriented Data
Communication Architecture [19.2129567657739]
グラフ畳み込みネットワーク(gcns)は大規模グラフベースのレコメンデーションシステムでますます採用されている。
現在のGCNトレーニングシステムは、フィーチャーテーブルをホストメモリに保持し、スパース機能の収集にCPUに依存している。
しかしこのアプローチは、ホストメモリの帯域幅とCPUに大きなプレッシャーを与えます。
本稿では,GPUスレッドがホストメモリのスパース機能に直接アクセスするGCNトレーニングのための新しいGPU指向データ通信手法を提案する。
論文 参考訳(メタデータ) (2021-03-04T21:00:17Z) - Efficient Video Semantic Segmentation with Labels Propagation and
Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。
i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。
高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文 参考訳(メタデータ) (2019-12-26T11:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。