論文の概要: SpeechNet: Weakly Supervised, End-to-End Speech Recognition at
Industrial Scale
- arxiv url: http://arxiv.org/abs/2211.11740v1
- Date: Mon, 21 Nov 2022 18:58:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 22:29:39.789085
- Title: SpeechNet: Weakly Supervised, End-to-End Speech Recognition at
Industrial Scale
- Title(参考訳): 音声ネットワーク:産業規模での弱監視・エンドツーエンド音声認識
- Authors: Raphael Tang, Karun Kumar, Gefei Yang, Akshat Pandey, Yajie Mao,
Vladislav Belyaev, Madhuri Emmadi, Craig Murray, Ferhan Ture, Jimmy Lin
- Abstract要約: エンドツーエンドの自動音声認識システムは、何千時間もの手動注釈付き音声認識と、推論のための重み計算に依存している。
現在私たちのシステムはSpeechNetと呼ばれ、音声対応スマートテレビで1日に1200万のクエリを処理しています。
大規模なWav2vecベースのデプロイメントが学術文献で説明されたのはこれが初めてである。
- 参考スコア(独自算出の注目度): 33.232222751775524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end automatic speech recognition systems represent the state of the
art, but they rely on thousands of hours of manually annotated speech for
training, as well as heavyweight computation for inference. Of course, this
impedes commercialization since most companies lack vast human and
computational resources. In this paper, we explore training and deploying an
ASR system in the label-scarce, compute-limited setting. To reduce human labor,
we use a third-party ASR system as a weak supervision source, supplemented with
labeling functions derived from implicit user feedback. To accelerate
inference, we propose to route production-time queries across a pool of CUDA
graphs of varying input lengths, the distribution of which best matches the
traffic's. Compared to our third-party ASR, we achieve a relative improvement
in word-error rate of 8% and a speedup of 600%. Our system, called SpeechNet,
currently serves 12 million queries per day on our voice-enabled smart
television. To our knowledge, this is the first time a large-scale,
Wav2vec-based deployment has been described in the academic literature.
- Abstract(参考訳): エンドツーエンドの自動音声認識システムは技術の現状を表現しているが、トレーニングには何千時間も手動で注釈付けされた音声を、推論には重み付けの計算に頼っている。
もちろんこれは、多くの企業が膨大な人的資源と計算資源を欠いているため、商業化を妨げる。
本稿では,ラベルスカース,計算制限設定におけるASRシステムの訓練と展開について検討する。
人的労力を減らすために,暗黙のユーザフィードバックから派生したラベル付け機能を補う,弱い監督源としてサードパーティのasrシステムを用いる。
推定を高速化するため,提案手法では,入力長の異なるCUDAグラフのプールに実運用時クエリをルーティングし,その分布がトラフィックに最もよくマッチすることを示す。
サードパーティのASRと比較して、単語エラー率8%、スピードアップ600%の相対的な改善を実現しています。
現在私たちのシステムはSpeechNetと呼ばれ、音声対応スマートテレビで1日に1200万のクエリを処理しています。
私たちの知る限り、大規模なwav2vecベースのデプロイメントが学術文献に記述されたのはこれが初めてです。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。
本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。
同様のビットレートでEncodecを上回るパイプラインを導入する。
論文 参考訳(メタデータ) (2024-07-03T20:51:41Z) - Anatomy of Industrial Scale Multilingual ASR [13.491861238522421]
本稿では,アセンブリの産業規模自動音声認識(ASR)システムについて述べる。
本システムは,教師なし(12.5M時間),教師なし(188K時間),疑似ラベル付き(1.6M時間)の4言語を対象とした多様なトレーニングデータセットを活用する。
論文 参考訳(メタデータ) (2024-04-15T14:48:43Z) - Enhancing ASR for Stuttered Speech with Limited Data Using Detect and
Pass [0.0]
全世界で約7000万人が、発声障害と呼ばれる言語障害に罹患していると推定されている。
そこで本稿では,最新のASRシステムを実現するために,"Detect and Pass"と呼ばれるシンプルだが効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T19:55:23Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。