論文の概要: WhisperKit: On-device Real-time ASR with Billion-Scale Transformers
- arxiv url: http://arxiv.org/abs/2507.10860v1
- Date: Mon, 14 Jul 2025 23:20:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.919177
- Title: WhisperKit: On-device Real-time ASR with Billion-Scale Transformers
- Title(参考訳): WhisperKit: 10億ドル規模のトランスフォーマーを備えたオンデバイスリアルタイムASR
- Authors: Atila Orhon, Arda Okan, Berkin Durmus, Zach Nagengast, Eduardo Pacheco,
- Abstract要約: WhisperKitは、リアルタイムASR向けに最適化されたオンデバイス推論システムである。
WhisperKitは0.46秒で最低レイテンシと一致し、最高精度は2.2% WERである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time Automatic Speech Recognition (ASR) is a fundamental building block for many commercial applications of ML, including live captioning, dictation, meeting transcriptions, and medical scribes. Accuracy and latency are the most important factors when companies select a system to deploy. We present WhisperKit, an optimized on-device inference system for real-time ASR that significantly outperforms leading cloud-based systems. We benchmark against server-side systems that deploy a diverse set of models, including a frontier model (OpenAI gpt-4o-transcribe), a proprietary model (Deepgram nova-3), and an open-source model (Fireworks large-v3-turbo).Our results show that WhisperKit matches the lowest latency at 0.46s while achieving the highest accuracy 2.2% WER. The optimizations behind the WhisperKit system are described in detail in this paper.
- Abstract(参考訳): リアルタイム自動音声認識(Real-time Automatic Speech Recognition, ASR)は、MLの多くの商業的応用のための基本的なビルディングブロックである。
企業がデプロイするシステムを選択する際の最も重要な要因は、正確性とレイテンシだ。
WhisperKitはリアルタイムASR用に最適化されたオンデバイス推論システムで、主要なクラウドベースシステムよりも大幅に優れています。
我々は、フロンティアモデル(OpenAI gpt-4o-transcribe)、プロプライエタリモデル(Deepgram nova-3)、オープンソースモデル(Fireworks large-v3-turbo)など、さまざまなモデルのデプロイを行うサーバサイドシステムに対してベンチマークを行った。
以上の結果から,WhisperKitの最低レイテンシは0.46秒,最高精度は2.2%であった。
本稿では,WhisperKitシステムの最適化について述べる。
関連論文リスト
- Whispy: Adapting STT Whisper Models to Real-Time Environments [43.000853406349165]
Whispyは、Whisper事前訓練モデルにライブ機能を提供するシステムである。
Whispyはライブオーディオストリームを消費し、ハイレベルで一貫性のある音声書き起こしを生成する。
本研究では,公開音声データセットの大規模リポジトリ上での性能評価を行う。
論文 参考訳(メタデータ) (2024-05-06T13:55:39Z) - Anatomy of Industrial Scale Multilingual ASR [13.491861238522421]
本稿では,アセンブリの産業規模自動音声認識(ASR)システムについて述べる。
本システムは,教師なし(12.5M時間),教師なし(188K時間),疑似ラベル付き(1.6M時間)の4言語を対象とした多様なトレーニングデータセットを活用する。
論文 参考訳(メタデータ) (2024-04-15T14:48:43Z) - Digits micro-model for accurate and secure transactions [0.5999777817331317]
より小型の「マイクロ」音声認識モデルの可能性を強調した。
大きな音声認識モデルとは異なり、マイクロモデルは慎重に選択され、キュレートされたデータセットで訓練される。
我々の研究は、ドメイン固有のASRモデル、数値認識精度の向上、データのプライバシーに寄与する。
論文 参考訳(メタデータ) (2024-02-02T22:01:27Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles [48.208214762257136]
オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、サーバ側の検証モデルである。
プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
論文 参考訳(メタデータ) (2023-10-17T16:22:18Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - LightSpeech: Lightweight and Fast Text to Speech with Neural
Architecture Search [127.56834100382878]
我々は、FastSpeechに基づくより軽量で効率的なTSモデルを自動的に設計するLightSpeechを提案する。
実験の結果,提案手法により検出されたモデルは,CPU上での15倍のモデル圧縮比と6.5倍の推論高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-02-08T07:45:06Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。