Fugu-MT 論文翻訳(概要): Implementing contextual biasing in GPU decoder for online ASR

論文の概要: Implementing contextual biasing in GPU decoder for online ASR

arxiv url: http://arxiv.org/abs/2306.15685v1
Date: Fri, 23 Jun 2023 08:59:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-02 13:17:42.484393
Title: Implementing contextual biasing in GPU decoder for online ASR
Title（参考訳）: オンラインasr用gpuデコーダにおけるコンテキストバイアスの実装
Authors: Iuliia Nigmatulina, Srikanth Madikeri, Esa\'u Villatoro-Tello, Petr Motli\v{c}ek, Juan Zuluaga-Gomez, Karthik Pandia, Aravind Ganapathiraju
Abstract要約: 本稿では,リアルタイムGPUデコーディングにおけるコンテキストバイアスの統合手法を提案する。提案手法では,動的コンテキストスイッチングにより,各音声セグメントのフレキシブルな再構成をGPU上で直接行うことができる。コードは公開され、オープンソースのテストセットでテストされる。
参考スコア（独自算出の注目度）: 1.6622626701267829
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: GPU decoding significantly accelerates the output of ASR predictions. While GPUs are already being used for online ASR decoding, post-processing and rescoring on GPUs have not been properly investigated yet. Rescoring with available contextual information can considerably improve ASR predictions. Previous studies have proven the viability of lattice rescoring in decoding and biasing language model (LM) weights in offline and online CPU scenarios. In real-time GPU decoding, partial recognition hypotheses are produced without lattice generation, which makes the implementation of biasing more complex. The paper proposes and describes an approach to integrate contextual biasing in real-time GPU decoding while exploiting the standard Kaldi GPU decoder. Besides the biasing of partial ASR predictions, our approach also permits dynamic context switching allowing a flexible rescoring per each speech segment directly on GPU. The code is publicly released and tested with open-sourced test sets.
Abstract（参考訳）: gpuデコーディングはasr予測の出力を著しく加速する。 GPUはオンラインASRデコーディングにすでに使用されているが、GPUでの後処理と再コーディングはまだ適切に研究されていない。利用可能なコンテキスト情報によるリコーディングは、ASR予測を大幅に改善することができる。従来の研究は、オフラインおよびオンラインのCPUシナリオにおいて、デコードおよびバイアス言語モデル(LM)重み付けにおける格子再構成の可能性を証明してきた。リアルタイムGPUデコーディングでは、格子生成なしで部分認識仮説が生成され、バイアス処理の実装がより複雑になる。本稿では,標準のKaldi GPUデコーダを活用しながら,リアルタイムGPUデコードにコンテキストバイアスを統合するアプローチを提案する。部分的ASR予測のバイアスに加え、我々の手法は動的コンテキスト切替を可能にし、各音声セグメントのフレキシブルな再構成をGPU上で直接行うことができる。コードは公開され、オープンソースのテストセットでテストされる。

関連論文リスト

ESTR-CoT: Towards Explainable and Accurate Event Stream based Scene Text Recognition with Chain-of-Thought Reasoning [57.767536707234036]
本稿では,イベントストリームシーンのテキスト認識フレームワークESTR-CoTを提案する。具体的には、まず視覚エンコーダEVA-CLIPを採用し、入力イベントストリームをトークンに変換し、Llamaトークン化器を使用して与えられた生成プロンプトをエンコードする。 Qフォーマーは、事前訓練された大言語モデルVicuna-7Bにビジョントークンを整列させ、応答とチェーン・オブ・シークレット(CoT)推論プロセスの両方を同時に出力する。
論文参考訳（メタデータ） (2025-07-02T23:41:31Z)
NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文参考訳（メタデータ） (2025-05-28T20:43:10Z)
Minute-Long Videos with Dual Parallelisms [57.22737565366549]
Diffusion Transformer (DiT)ベースのビデオ拡散モデルは、大規模に高品質なビデオを生成するが、長いビデオの処理遅延とメモリコストは禁じられている。我々はDualParalと呼ばれる新しい分散推論戦略を提案する。 1つのGPUでビデオ全体を生成する代わりに、時間フレームとモデルレイヤの両方をGPU間で並列化します。
論文参考訳（メタデータ） (2025-05-27T11:55:22Z)
GPU accelerated program synthesis: Enumerate semantics, not syntax! [1.3422713954544112]
入力正および負のサンプルトレースとしてGPU上で動作する合成器を構築し、正のトレースを受け入れて負のトレースを拒否する論理式を返す。 GPUに親しみやすいプログラミング技術では、我々の合成器ははるかに大きな合成問題にスケールし、以前のCPUベースの最先端技術よりもはるかに高速に動作します。
論文参考訳（メタデータ） (2025-04-26T15:06:37Z)
Ramp Up NTT in Record Time using GPU-Accelerated Algorithms and LLM-based Code Generation [11.120838175165986]
ホモモルフィック暗号化(HE)はプライバシ保護機械学習(PPML)のコアビルディングブロックである HEの性能向上のために、多くのGPU加速暗号方式が提案されている。大規模言語モデル(LLM)の強力なコード生成能力を考えると、実用的なGPUフレンドリなアルゴリズムコードを自動的に生成する可能性を探究する。
論文参考訳（メタデータ） (2025-02-16T12:53:23Z)
SIP: Autotuning GPU Native Schedules via Stochastic Instruction Perturbation [0.0]
大型言語モデル(LLM)はその出現以来、重要なワークロードとなっている。また、数十億のパラメータを持ち、大量のデータで訓練されているため、計算コストも高い。近年、LLMのトレーニングと推論のための専用カーネルが開発されているため、ハードウェアリソースは可能な限り十分に活用されている。
論文参考訳（メタデータ） (2024-03-25T15:26:50Z)
High Performance Computing Applied to Logistic Regression: A CPU and GPU Implementation Comparison [0.0]
汎用GPUによるロジスティック回帰(LR)の並列バージョンを提案する。我々の実装は、X. Zouらによって提案された並列なグラディエントDescent Logistic Regressionアルゴリズムの直接変換である。本手法は,画像認識,スパム検出,不正検出などのリアルタイム予測に特に有用である。
論文参考訳（メタデータ） (2023-08-19T14:49:37Z)
Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文参考訳（メタデータ） (2022-12-28T18:59:28Z)
Momentum Decoding: Open-ended Text Generation As Graph Exploration [49.812280360794894]
自動回帰言語モデル(LM)を用いたオープンエンドテキスト生成は、自然言語処理における中核的なタスクの1つである。我々は、新しい視点から、すなわち、有向グラフ内の探索プロセスとして、オープンエンドテキスト生成を定式化する。本稿では,新しい復号法であるtextitmomentum decodingを提案する。
論文参考訳（メタデータ） (2022-12-05T11:16:47Z)
EVEREST: Efficient Masked Video Autoencoder by Removing Redundant Spatiotemporal Tokens [57.354304637367555]
ビデオ表現学習のための驚くほど効率的なMVAアプローチであるEVERESTを提案する。リッチなモーション特徴を含むトークンを発見し、事前トレーニングと微調整の両方の間、非形式的なトークンを破棄する。提案手法は,MVAの計算とメモリ要求を大幅に低減する。
論文参考訳（メタデータ） (2022-11-19T09:57:01Z)
Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文参考訳（メタデータ） (2021-10-13T20:58:15Z)
Providing Meaningful Data Summarizations Using Examplar-based Clustering in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文参考訳（メタデータ） (2021-05-25T15:55:14Z)
RTGPU: Real-Time GPU Scheduling of Hard Deadline Parallel Tasks with Fine-Grain Utilization [5.02836935036198]
本論文では,複数のGPUアプリケーションの実行をリアルタイムにスケジュール可能なRTGPUを提案する。提案手法は,従来の作業に比べてスケジューリング性に優れ,複数のGPUアプリケーションに厳しい期限をリアルタイムに保証する。
論文参考訳（メタデータ） (2021-01-25T22:34:06Z)
Applying GPGPU to Recurrent Neural Network Language Model based Fast Network Search in the Real-Time LVCSR [5.0555627833288]
リカレントニューラルネットワーク言語モデル (RNNLM) は音声認識の様々な分野で使われ始めている。 RNNLMの計算複雑性は、RNNLMをリアルタイムな大語彙連続音声認識に適用する上でハードルとなっている。
論文参考訳（メタデータ） (2020-07-23T05:15:14Z)
GEVO: GPU Code Optimization using Evolutionary Computation [12.9965710635562]
GEVOは最適化の機会を発見し、LLVM表現でGPUカーネルのパフォーマンスをチューニングするためのツールである。 GEVOは、NVIDIA Tesla P100上で、Rodiniaベンチマークスイートと機械学習モデルであるSVMとResNet18におけるGPUプログラムの実行時間を改善する。 GEVOはResNet18/CIFAR-10を用いた画像分類において1.79倍の性能向上を実現し、精度は1%未満である。
論文参考訳（メタデータ） (2020-04-17T09:36:17Z)
Efficient Video Semantic Segmentation with Labels Propagation and Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。 i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文参考訳（メタデータ） (2019-12-26T11:45:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。