論文の概要: Pushing the Limits of On-Device Streaming ASR: A Compact, High-Accuracy English Model for Low-Latency Inference
- arxiv url: http://arxiv.org/abs/2604.14493v2
- Date: Sun, 19 Apr 2026 17:58:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 13:51:31.120175
- Title: Pushing the Limits of On-Device Streaming ASR: A Compact, High-Accuracy English Model for Low-Latency Inference
- Title(参考訳): オンデバイスストリーミングASRの限界を押す:低レイテンシ推論のためのコンパクトで高精度な英語モデル
- Authors: Nenad Banfic, David Fan, Kunal Vaishnavi, Sam Kemp, Sunghoon Choi, Rui Ren, Sayan Shaw, Meng Tang,
- Abstract要約: エッジデバイス上での高品質な自動音声認識(ASR)は、GPUアクセラレーションなしでCPUで完全に動作している間に、精度、レイテンシ、メモリフットプリントを共同で最適化するモデルを必要とする。
我々は,エンコーダデコーダ,トランスデューサ,LDMベースのパラダイムを包含し,バッチ,チャンク,ストリーミング推論モードで評価する,最先端のASRアーキテクチャの体系的研究を行った。
推奨構成であるint4 k-quant変種は、8つの標準ベンチマークで平均8.20%のストリーミングWERを実現し、0.56秒のアルゴリズムレイテンシでCPU上でのリアルタイムよりも快適に動作します。
- 参考スコア(独自算出の注目度): 5.685908474026849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying high-quality automatic speech recognition (ASR) on edge devices requires models that jointly optimize accuracy, latency, and memory footprint while operating entirely on CPU without GPU acceleration. We conduct a systematic empirical study of state-of-the-art ASR architectures, encompassing encoder-decoder, transducer, and LLM-based paradigms, evaluated across batch, chunked, and streaming inference modes. Through a comprehensive benchmark of over 50 configurations spanning OpenAI Whisper, NVIDIA Nemotron, Parakeet TDT, Canary, Conformer Transducer, and Qwen3-ASR, we identify NVIDIA's Nemotron Speech Streaming as the strongest candidate for real-time English streaming on resource-constrained hardware. We then re-implement the complete streaming inference pipeline in ONNX Runtime and conduct a controlled evaluation of multiple post-training quantization strategies, including importance-weighted k-quant, mixed-precision schemes, and round-to-nearest quantization, combined with graph-level operator fusion. These optimizations reduce the model from 2.47 GB to as little as 0.67 GB while maintaining word error rate (WER) within 1% absolute of the full-precision PyTorch baseline. Our recommended configuration, the int4 k-quant variant, achieves 8.20% average streaming WER across eight standard benchmarks, running comfortably faster than real-time on CPU with 0.56 s algorithmic latency, establishing a new quality-efficiency Pareto point for on-device streaming ASR.
- Abstract(参考訳): エッジデバイスに高品質な自動音声認識(ASR)をデプロイするには、GPUアクセラレーションなしでCPUで完全に動作している間に、精度、レイテンシ、メモリフットプリントを共同で最適化するモデルが必要である。
我々は,エンコーダデコーダ,トランスデューサ,LDMベースのパラダイムを包含し,バッチ,チャンク,ストリーミング推論モードで評価する,最先端のASRアーキテクチャの体系的研究を行った。
OpenAI Whisper、NVIDIA Nemotron、Parakeet TDT、Canary、Conformer Transducer、Qwen3-ASRにまたがる50以上の構成の包括的なベンチマークを通じて、NVIDIAのNemotron Speech Streamingが、リソース制約のあるハードウェア上でのリアルタイム英語ストリーミングの最も強力な候補であると確認した。
次に、ONNX Runtimeで完全なストリーミング推論パイプラインを再実装し、重要度重み付きk量子、混合精度スキーム、ラウンド・トゥ・アレスト量子化を含む複数のトレーニング後の量子化戦略をグラフレベルの演算子融合と組み合わせて制御評価する。
これらの最適化により、モデルは2.47GBから0.67GBまで削減され、完全精度のPyTorchベースラインの1%以内でワードエラー率(WER)を維持した。
推奨構成であるint4 k-quantは、8つの標準ベンチマークで平均8.20%の平均ストリーミングWERを実現し、0.56秒のアルゴリズムレイテンシでCPU上のリアルタイムよりも快適に動作し、オンデバイスストリーミングASRのための新しい品質効率のParetoポイントを確立しました。
関連論文リスト
- Resource-Efficient Iterative LLM-Based NAS with Feedback Memory [49.44875022114861]
ニューラルアーキテクチャサーチ(NAS)はネットワーク設計を自動化するが、従来の手法ではかなりの計算資源を必要とする。
本稿では,大規模言語モデル(LLM)を活用して,畳み込みニューラルネットワークアーキテクチャを反復的に生成し,評価し,洗練するクローズドループパイプラインを提案する。
論文 参考訳(メタデータ) (2026-03-12T16:00:22Z) - Beyond GEMM-Centric NPUs: Enabling Efficient Diffusion LLM Sampling [14.471123653746275]
Diffusion Large Language Models (dLLMs) は、並列トークン生成を可能にする反復型デノゲーションを導入している。
我々の設計では、軽量な非GEMMベクトルプリミティブ、インプレースメモリ再利用戦略、分離された混合精度メモリ階層を用いる。
論文 参考訳(メタデータ) (2026-01-28T15:37:50Z) - Practical Conformer: Optimizing size, speed and flops of Conformer for
on-Device and cloud ASR [67.63332492134332]
我々は、デバイス上の制約を満たすのに十分小さく、TPUを高速に推論できる最適化されたコンバータを設計する。
提案するエンコーダは、デバイス上では強力なスタンドアロンエンコーダとして、また高性能なASRパイプラインの第1部として利用することができる。
論文 参考訳(メタデータ) (2023-03-31T23:30:48Z) - Accelerating Inference and Language Model Fusion of Recurrent Neural
Network Transducers via End-to-End 4-bit Quantization [35.198615417316056]
我々は、リカレントニューラルネットワークトランスデューサ(RNN-T)の推論を大幅に高速化するアグレッシブ量子化戦略について報告する。
重みとアクティベーションの両方に4ビット整数表現を使用し、完全なモデルをトレーニングするために量子化アウェアトレーニング(QAT)を適用します。
ネットワークのローカルな特性に合わせてカスタマイズされた量子化方式は、優れた性能を実現するために不可欠であることを示す。
論文 参考訳(メタデータ) (2022-06-16T02:17:49Z) - Dynamic Latency for CTC-Based Streaming Automatic Speech Recognition
With Emformer [0.4588028371034407]
効率的な拡張メモリ変換器ブロックと動的遅延学習法を用いたフレームレベルモデルを用いて音声認識のストリーミングを行う。
平均レイテンシは640msであり,テストクリーンでは6.4%,他では3.0%,チャンクワイドトランスでは3.0%の相対的なWER削減を実現している。
論文 参考訳(メタデータ) (2022-03-29T14:31:06Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Unified Streaming and Non-streaming Two-pass End-to-end Model for Speech
Recognition [19.971343876930767]
ストリーミングと非ストリーミングエンドツーエンド(E2E)音声認識を1つのモデルで統一する,新たな2パス方式を提案する。
本モデルでは,エンコーダのコンフォメータ層を改良したハイブリッドCTC/アテンションアーキテクチャを採用している。
オープンな170時間AISHELL-1データセットの実験により、提案手法はストリーミングモデルと非ストリーミングモデルを簡便かつ効率的に統一できることを示した。
論文 参考訳(メタデータ) (2020-12-10T06:54:54Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。