論文の概要: TensorBLEU: Vectorized GPU-based BLEU Score Implementation for Per-Sentence In-Training Evaluation
- arxiv url: http://arxiv.org/abs/2510.05485v1
- Date: Tue, 07 Oct 2025 01:02:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.0445
- Title: TensorBLEU: Vectorized GPU-based BLEU Score Implementation for Per-Sentence In-Training Evaluation
- Title(参考訳): TensorBLEU: トレーニング毎のトレーニング評価のためのベクトルGPUベースのBLEUスコア実装
- Authors: Adam Filipek,
- Abstract要約: 本稿では,この特定のユースケースに対してゼロから設計したBLEUメトリックの実装について紹介する。
提案手法は,PyTorch内のGPUアクセラレーションによる文ごとの計算に対して完全にベクトル化されている。
texttttorch.unique を用いて n-gram のコンパクトなバッチ固有辞書を作成することにより、従来のハッシュベースのベクトル化の禁止メモリコストを回避することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern natural language processing models have achieved unprecedented scale, yet the tools for their evaluation often remain a computational bottleneck, limiting the pace of research. This is particularly acute for in-training evaluation metrics, such as per-sentence reward signals in Reinforcement Learning, which must operate efficiently on batches of token IDs directly on the GPU. In this paper, we introduce TensorBLEU, a novel implementation of the BLEU metric designed from the ground up for this specific use case. Our approach is fully vectorized for GPU-accelerated, per-sentence computation within PyTorch and introduces a memory-efficient counting mechanism. By creating a compact, batch-specific dictionary of n-grams using \texttt{torch.unique}, our method avoids the prohibitive memory costs of traditional hashing-based vectorization, making it practical for large-vocabulary models. We benchmark TensorBLEU against NLTK, the standard library for token-ID-based BLEU calculation on the CPU. Experiments show that TensorBLEU provides speedups of over 13x on consumer-grade GPUs (NVIDIA T4) and exceeding 40x on data-center-class hardware (NVIDIA A100). This performance transforms a significant bottleneck into a negligible part of the training loop. By clearly defining its role as a "Token-ID BLEU" for development purposes and open-sourcing our implementation, we provide a powerful tool for accelerating research in areas like RL-based model fine-tuning.
- Abstract(参考訳): 現代の自然言語処理モデルは前例のない規模を達成しているが、その評価のためのツールはしばしば計算のボトルネックのままであり、研究のペースを制限している。
強化学習では、GPU上で直接トークンIDのバッチ上で効率よく操作する必要がある。
本稿では,この特定のユースケースのためにゼロから設計されたBLEUメトリックの実装であるTensorBLEUを紹介する。
提案手法は,PyTorch内におけるGPUアクセラレーションによる文毎の計算に対して完全にベクトル化されており,メモリ効率の高いカウント機構を導入している。
本手法は, 従来のハッシュベースのベクトル化の禁止メモリコストを回避するため, n-gram のコンパクトかつバッチ固有の辞書を作成する。
我々は、CPU上でのトークンIDベースのBLEU計算の標準ライブラリであるNLTKに対してTensorBLEUをベンチマークする。
実験によると、TensorBLEUは、コンシューマグレードのGPU(NVIDIA T4)で13倍以上のスピードアップを提供し、データセンタークラスのハードウェア(NVIDIA A100)で40倍以上のスピードアップを提供する。
このパフォーマンスは、重要なボトルネックをトレーニングループの無視可能な部分に変換する。
開発目的と実装のオープンソース化のための「トークンIDBLEU」としての役割を明確に定義することにより、RLベースのモデル微調整などの分野の研究を加速するための強力なツールを提供する。
関連論文リスト
- Dynamic Sparse Attention on Mobile SoCs [11.250584640139998]
本稿では,CPU/GPUに依存しない疎注意モジュールであるShadowAttnを提案する。
鍵となる考え方は、NPUベースのパイロット計算で重要なトークンを推定するオーバーヘッドを隠すことである。
論文 参考訳(メタデータ) (2025-08-22T07:41:35Z) - NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。
我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。
提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文 参考訳(メタデータ) (2025-05-28T20:43:10Z) - Cut Your Losses in Large-Vocabulary Language Models [102.6981011879656]
我々は,全トークンのロジットをグローバルメモリに実体化することなく,クロスエントロピー損失を計算する手法であるカットクロスエントロピー(CCE)を提案する。
CCEはロスのメモリフットプリントを24GBから1MBに減らし、ヘッドのトレーニング時間のメモリ消費を28GBから1GBに短縮する。
論文 参考訳(メタデータ) (2024-11-13T20:30:15Z) - Generating and Imputing Tabular Data via Diffusion and Flow-based
Gradient-Boosted Trees [11.732842929815401]
タブラルデータは取得が困難で、値が失われる。
本稿では,混合型(連続型および分類型)データの生成と計算のための新しいアプローチを提案する。
スコア関数やベクトル場をニューラルネットワークで学習する従来の手法とは対照的に,我々はXGBoostを採用する。
論文 参考訳(メタデータ) (2023-09-18T17:49:09Z) - High Performance Computing Applied to Logistic Regression: A CPU and GPU
Implementation Comparison [0.0]
汎用GPUによるロジスティック回帰(LR)の並列バージョンを提案する。
我々の実装は、X. Zouらによって提案された並列なグラディエントDescent Logistic Regressionアルゴリズムの直接変換である。
本手法は,画像認識,スパム検出,不正検出などのリアルタイム予測に特に有用である。
論文 参考訳(メタデータ) (2023-08-19T14:49:37Z) - Efficient CNN with uncorrelated Bag of Features pooling [98.78384185493624]
Bag of Features (BoF)は、畳み込み層の複雑さを軽減するために最近提案されている。
本稿では,BoFプーリング上に構築した手法を用いて,学習辞書の項目が非冗長であることを保証する。
提案した戦略は、BoFの効率的な変種を生成し、追加のパラメータを使わずにその性能をさらに向上させる。
論文 参考訳(メタデータ) (2022-09-22T09:00:30Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。