論文の概要: Sink or SWIM: Tackling Real-Time ASR at Scale
- arxiv url: http://arxiv.org/abs/2601.17097v1
- Date: Thu, 22 Jan 2026 15:00:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.272018
- Title: Sink or SWIM: Tackling Real-Time ASR at Scale
- Title(参考訳): Sink or SWIM: リアルタイムASRを大規模に扱う
- Authors: Federico Bruzzone, Walter Cazzola, Matteo Brancaleoni, Dario Pellegrino,
- Abstract要約: SWIMはOpenAIのWhisperモデル上に構築された新しいリアルタイムASRシステムである。
SWIMは、基礎となるモデルを変更することなく、複数の同時オーディオストリームをサポートする。
低レイテンシと高いスループットを維持しながら、英語、イタリア語、スペイン語で正確なリアルタイムの書き起こしを提供する。
- 参考スコア(独自算出の注目度): 4.57316398076587
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Real-time automatic speech recognition systems are increasingly integrated into interactive applications, from voice assistants to live transcription services. However, scaling these systems to support multiple concurrent clients while maintaining low latency and high accuracy remains a major challenge. In this work, we present SWIM, a novel real-time ASR system built on top of OpenAI's Whisper model that enables true model-level parallelization for scalable, multilingual transcription. SWIM supports multiple concurrent audio streams without modifying the underlying model. It introduces a buffer merging strategy that maintains transcription fidelity while ensuring efficient resource usage. We evaluate SWIM in multi-client settings -- scaling up to 20 concurrent users -- and show that it delivers accurate real-time transcriptions in English, Italian, and Spanish, while maintaining low latency and high throughput. While Whisper-Streaming achieves a word error rate of approximately 8.2% with an average delay of approximately 3.4 s in a single-client, English-only setting, SWIM extends this capability to multilingual, multi-client environments. It maintains comparable accuracy with significantly lower delay -- around 2.4 s with 5 clients -- and continues to scale effectively up to 20 concurrent clients without degrading transcription quality and increasing overall throughput. Our approach advances scalable ASR by improving robustness and efficiency in dynamic, multi-user environments.
- Abstract(参考訳): リアルタイム自動音声認識システムは、音声アシスタントからライブの文字起こしサービスまで、インタラクティブなアプリケーションにますます統合されている。
しかしながら、低レイテンシと高い精度を維持しながら、これらのシステムを複数の並行クライアントをサポートするようにスケールすることは大きな課題である。
本稿では,OpenAIのWhisperモデル上に構築された,スケーラブルな多言語転写のための真のモデルレベルの並列化を実現する,新しいリアルタイムASRシステムSWIMを提案する。
SWIMは、基礎となるモデルを変更することなく、複数の同時オーディオストリームをサポートする。
効率的なリソース使用を確保しつつ、転写忠実性を維持するバッファマージ戦略を導入する。
SWIMをマルチクライアント環境で評価し、最大20人の同時ユーザをスケールアップし、低レイテンシと高いスループットを維持しながら、英語、イタリア語、スペイン語で正確なリアルタイムの書き起こしを提供することを示す。
Whisper-Streaming は単語エラー率を約8.2%、平均遅延は3.4秒、英語のみの設定で達成しているが、SWIM はこの能力をマルチリンガルでマルチリンガルな環境に拡張している。
5つのクライアントで2.4秒程度遅延し、書き起こし品質を低下させ、全体的なスループットを向上することなく、20の同時クライアントまで効果的にスケールし続けています。
提案手法は,動的マルチユーザ環境におけるロバスト性や効率性を向上し,スケーラブルなASRを推し進める。
関連論文リスト
- Voxtral Realtime [134.66962524291424]
Voxtral Realtimeはストリーミング自動音声認識モデルである。
オフラインの書き込み品質は、秒以下のレイテンシで一致します。
私たちはApache 2.0ライセンスの下でモデルウェイトをリリースしています。
論文 参考訳(メタデータ) (2026-02-11T19:17:10Z) - Stream RAG: Instant and Accurate Spoken Dialogue Systems with Streaming Tool Usage [66.67531241554546]
従来のASR-LLM-TTSパイプラインに代わる強力な対話システムとして、エンドツーエンドの音声対話システムが登場している。
本稿では,音声入力システムに直接ツールの使用を拡張するための最初のアプローチを紹介する。
提案するStreaming Retrieval-Augmented Generation (Streaming RAG) は,ユーザ音声と並行してツールクエリを予測することにより,ユーザ知覚のレイテンシを低減する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-02T14:18:20Z) - VITA-Audio: Fast Interleaved Cross-Modal Token Generation for Efficient Large Speech-Language Model [84.25283710008785]
VITA-Audioは、高速な音声テキストトークン生成を備えたエンドツーエンドの大規模音声モデルである。
MCTPモジュールは、単一のモデルフォワードパス内で複数のオーディオトークンを効率よく生成する。
4段階のプログレッシブ・トレーニング・ストラテジーは,音声品質の低下を最小限に抑えたモデルアクセラレーションを実現するために検討された。
論文 参考訳(メタデータ) (2025-05-06T17:59:53Z) - DroidSpeak: KV Cache Sharing for Cross-LLM Communication and Multi-LLM Serving [14.700431530275132]
DroidSpeakは分散ノード間でKVキャッシュの再利用を可能にする最初の分散LLM推論システムである。
DroidSpeakは最大4倍のスループット向上と約3.1倍高速プリフィル(タイム・ツー・ファーストトークン)を実現していることを示す。
多様なデータセットとモデルペアの実験では、DroidSpeakは最大4倍のスループット向上と約3.1倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-11-05T05:41:41Z) - Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-23T11:00:27Z) - Token-Level Serialized Output Training for Joint Streaming ASR and ST
Leveraging Textual Alignments [49.38965743465124]
本稿では,単一デコーダを用いて自動音声認識(ASR)と音声翻訳(ST)出力を共同生成するストリーミングトランスデューサを提案する。
単言語および多言語設定の実験は、我々のアプローチが最高の品質とレイテンシのバランスを達成することを示す。
論文 参考訳(メタデータ) (2023-07-07T02:26:18Z) - Efficient Multimodal Neural Networks for Trigger-less Voice Assistants [0.8209843760716959]
本稿では,スマートウォッチ用ニューラルネットワークを用いたマルチモーダルフュージョンシステムを提案する。
このシステムは、音声とジェスチャーデータの時間的相関をよりよく理解し、正確な呼び出しにつながる。
軽量で、スマートウォッチなどの低消費電力デバイスにデプロイ可能で、起動時間も速い。
論文 参考訳(メタデータ) (2023-05-20T02:52:02Z) - A Language Agnostic Multilingual Streaming On-Device ASR System [40.01902403540186]
オンデバイス・エンド・ツー・エンド(E2E)モデルは、品質とレイテンシの両方において、英語音声検索タスクの従来のモデルよりも改善されている。
単言語モデルに匹敵する品質とレイテンシを持つデバイス上で完全に動作するストリーミングマルチリンガルE2E ASRシステムを提案する。
論文 参考訳(メタデータ) (2022-08-29T22:34:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。