論文の概要: WhisperPipe: A Resource-Efficient Streaming Architecture for Real-Time Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2604.25611v1
- Date: Tue, 28 Apr 2026 13:18:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.869762
- Title: WhisperPipe: A Resource-Efficient Streaming Architecture for Real-Time Automatic Speech Recognition
- Title(参考訳): WhisperPipe:リアルタイム音声認識のための資源効率の良いストリーミングアーキテクチャ
- Authors: Erfan Ramezani, Mohammad Mahdi Giahi, Mohammad Erfan Zarabadipour, Amir Reza Yosefian, Hamid Ghadiri,
- Abstract要約: 本稿では,書き起こし品質を維持しながらメモリ消費の限界を実現する新しいストリーミングアーキテクチャWhisperPipeを提案する。
我々はWhisperPipeが既存のストリーミングソリューションよりも3~5倍のレイテンシで動作しながら、競争精度(WERがオフラインのWhisperの2%以内)を達成することを示す。
- 参考スコア(独自算出の注目度): 0.21748200848556343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time automatic speech recognition (ASR) systems face a fundamental trade-off between transcription accuracy and computational efficiency, particularly when deploying large-scale transformer models like Whisper. Existing streaming approaches either sacrifice accuracy through aggressive chunking or incur prohibitive memory costs through unbounded context accumulation. We present WhisperPipe, a novel streaming architecture that achieves bounded memory consumption while maintaining transcription quality through three key innovations a hybrid Voice Activity Detection (VAD) pipeline combining Silero VAD with energy-based filtering to reduce false activations by 34%, a dynamic buffering mechanism with overlapping context windows that prevents information loss at segment boundaries, and an adaptive processing strategy that balances latency and accuracy based on speech characteristics. Evaluated on 2.5 hours of diverse audio data, WhisperPipe demonstrates a median end-to-end latency of 89ms (90th percentile: 142ms) while consuming 48% less peak GPU memory and 80.9% lower average GPU utilization compared to baseline Whisper implementations. The system maintains stable memory usage over extended sessions, with zero growth rate across 150-minute continuous operation. Comparative analysis against related work shows that WhisperPipe achieves competitive accuracy (WER within 2% of offline Whisper) while operating at 3-5x lower latency than existing streaming solutions. The architecture's modular design enables deployment across resource-constrained environments, from edge devices to cloud infrastructure. Our results demonstrate that careful architectural design can reconcile the competing demands of real-time responsiveness and model sophistication in production ASR systems.
- Abstract(参考訳): リアルタイム自動音声認識 (Real-time Automatic Speech Recognition, ASR) システムは、特にWhisperのような大規模トランスフォーマーモデルを展開する際に、転写精度と計算効率の基本的なトレードオフに直面している。
既存のストリーミングアプローチは、アグレッシブなチャンキングによる正確さを犠牲にするか、無制限のコンテキスト蓄積による不正なメモリコストを犠牲にする。
本稿では,Silero VADとエネルギーベースフィルタを組み合わせたハイブリッドVoice Activity Detection (VAD)パイプラインと,セグメント境界における情報損失を防止したコンテキストウィンドウを重畳する動的バッファリング機構と,音声特性に基づくレイテンシと精度のバランスをとる適応処理戦略の3つの重要な革新を通じて,書き起こし品質を維持しつつ,バウンドメモリの消費を実現する新しいストリーミングアーキテクチャであるWhisperPipeを提案する。
2.5時間の多様なオーディオデータに基づいて評価されたWhisperPipeは、89ms(90パーセント:142ms)の中央値のエンドツーエンドレイテンシを示し、ピーク時のGPUメモリは48%減少し、ベースラインのWhisper実装と比較して平均GPU利用率が80.9%低下した。
このシステムは、150分間の連続操作でゼロ成長率で、拡張セッションよりも安定したメモリ使用率を維持している。
関連する作業との比較分析によると、WhisperPipeは既存のストリーミングソリューションよりも3~5倍のレイテンシで動作しながら、競争精度(オフラインWhisperの2%以内)を達成する。
アーキテクチャのモジュール設計により、エッジデバイスからクラウドインフラストラクチャに至るまで、リソース制約のある環境へのデプロイが可能になる。
この結果から, 実運用SRシステムにおけるリアルタイム応答性とモデル高度化の競合する要求を, アーキテクチャ設計が再現可能であることが示唆された。
関連論文リスト
- Pushing the Limits of On-Device Streaming ASR: A Compact, High-Accuracy English Model for Low-Latency Inference [5.685908474026849]
エッジデバイス上での高品質な自動音声認識(ASR)は、GPUアクセラレーションなしでCPUで完全に動作している間に、精度、レイテンシ、メモリフットプリントを共同で最適化するモデルを必要とする。
我々は,エンコーダデコーダ,トランスデューサ,LDMベースのパラダイムを包含し,バッチ,チャンク,ストリーミング推論モードで評価する,最先端のASRアーキテクチャの体系的研究を行った。
推奨構成であるint4 k-quant変種は、8つの標準ベンチマークで平均8.20%のストリーミングWERを実現し、0.56秒のアルゴリズムレイテンシでCPU上でのリアルタイムよりも快適に動作します。
論文 参考訳(メタデータ) (2026-04-16T00:04:32Z) - Voxtral Realtime [134.66962524291424]
Voxtral Realtimeはストリーミング自動音声認識モデルである。
オフラインの書き込み品質は、秒以下のレイテンシで一致します。
私たちはApache 2.0ライセンスの下でモデルウェイトをリリースしています。
論文 参考訳(メタデータ) (2026-02-11T19:17:10Z) - Stream RAG: Instant and Accurate Spoken Dialogue Systems with Streaming Tool Usage [66.67531241554546]
従来のASR-LLM-TTSパイプラインに代わる強力な対話システムとして、エンドツーエンドの音声対話システムが登場している。
本稿では,音声入力システムに直接ツールの使用を拡張するための最初のアプローチを紹介する。
提案するStreaming Retrieval-Augmented Generation (Streaming RAG) は,ユーザ音声と並行してツールクエリを予測することにより,ユーザ知覚のレイテンシを低減する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-02T14:18:20Z) - Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。
非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。
非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文 参考訳(メタデータ) (2025-02-03T13:09:21Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z) - Spatiotemporal Attention-based Semantic Compression for Real-time Video
Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。
我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。
実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2023-05-22T07:47:27Z) - Unified End-to-End Speech Recognition and Endpointing for Fast and
Efficient Speech Systems [17.160006765475988]
本稿では,単一エンドツーエンド (E2E) モデルを用いて, ASR と EP タスクを協調訓練する手法を提案する。
我々は、EPにオーディオフレームを直接消費するか、ASRモデルから低レベルの潜在表現を消費するよう訓練する「スウィッチ」接続を導入する。
これにより、推論中にフレームフィルタリングを低コストで行うことができる単一のE2Eモデルが得られる。
論文 参考訳(メタデータ) (2022-11-01T23:43:15Z) - Dynamic Latency for CTC-Based Streaming Automatic Speech Recognition
With Emformer [0.4588028371034407]
効率的な拡張メモリ変換器ブロックと動的遅延学習法を用いたフレームレベルモデルを用いて音声認識のストリーミングを行う。
平均レイテンシは640msであり,テストクリーンでは6.4%,他では3.0%,チャンクワイドトランスでは3.0%の相対的なWER削減を実現している。
論文 参考訳(メタデータ) (2022-03-29T14:31:06Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。