論文の概要: Personal VAD 2.0: Optimizing Personal Voice Activity Detection for
On-Device Speech Recognition
- arxiv url: http://arxiv.org/abs/2204.03793v1
- Date: Fri, 8 Apr 2022 00:49:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 14:05:11.213651
- Title: Personal VAD 2.0: Optimizing Personal Voice Activity Detection for
On-Device Speech Recognition
- Title(参考訳): personal vad 2.0: オンデバイス音声認識のための個人音声活動検出の最適化
- Authors: Shaojin Ding, Rajeev Rikhye, Qiao Liang, Yanzhang He, Quan Wang, Arun
Narayanan, Tom O'Malley, Ian McGraw
- Abstract要約: 近年,デバイス上での音声認識(ASR)のパーソナライゼーションは爆発的な成長を遂げている。
パーソナライズされた音声活動検知器であるPersonal VAD 2.0は、ストリーミングオンデバイスASRシステムの一部として、ターゲット話者の音声活動を検出する。
- 参考スコア(独自算出の注目度): 19.262038608713755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalization of on-device speech recognition (ASR) has seen explosive
growth in recent years, largely due to the increasing popularity of personal
assistant features on mobile devices and smart home speakers. In this work, we
present Personal VAD 2.0, a personalized voice activity detector that detects
the voice activity of a target speaker, as part of a streaming on-device ASR
system. Although previous proof-of-concept studies have validated the
effectiveness of Personal VAD, there are still several critical challenges to
address before this model can be used in production: first, the quality must be
satisfactory in both enrollment and enrollment-less scenarios; second, it
should operate in a streaming fashion; and finally, the model size should be
small enough to fit a limited latency and CPU/Memory budget. To meet the
multi-faceted requirements, we propose a series of novel designs: 1) advanced
speaker embedding modulation methods; 2) a new training paradigm to generalize
to enrollment-less conditions; 3) architecture and runtime optimizations for
latency and resource restrictions. Extensive experiments on a realistic speech
recognition system demonstrated the state-of-the-art performance of our
proposed method.
- Abstract(参考訳): デバイス上での音声認識(asr)のパーソナライズは、モバイルデバイスやスマートホームスピーカーでのパーソナルアシスタント機能の普及によって、近年爆発的な成長を遂げている。
本研究では,ストリーミングオンデバイスASRシステムの一環として,ターゲット話者の音声活動を検出するパーソナライズされた音声活動検出装置であるPersonal VAD 2.0を提案する。
以前の概念実証研究は、個人的vadの有効性を検証しているが、このモデルが本番環境で使われる前に対処すべき重要な課題はいくつかある。第一に、登録と登録なしのシナリオの両方において品質が十分満足できなければならないこと、第二に、ストリーミング方式で運用する必要があること、そして最後に、モデルのサイズは、限定されたレイテンシとcpu/メモリ予算に適合するほど小さいこと、である。
多面的要件を満たすために,我々は新しいデザインのシリーズを提案する。
1) 高度な話者埋め込み変調方法
2) 入学不要条件を一般化する新たな訓練パラダイム
3) レイテンシとリソース制限に対するアーキテクチャとランタイムの最適化。
現実的な音声認識システムにおける大規模実験により,提案手法の最先端性能を実証した。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - FunASR: A Fundamental End-to-End Speech Recognition Toolkit [34.69774812281273]
FunASRは、学術研究と産業応用のギャップを埋めるために設計されたオープンソースの音声認識ツールキットである。
FunASRは、大規模産業コーパスでトレーニングされたモデルと、それらをアプリケーションにデプロイする機能を提供する。
論文 参考訳(メタデータ) (2023-05-18T14:45:09Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Personalized Speech Enhancement: New Models and Comprehensive Evaluation [27.572537325449158]
従来提案されていたVoiceFilterよりも優れた性能を実現するために,パーソナライズされた音声強調(PSE)モデルのための2つのニューラルネットワークを提案する。
また、ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成します。
その結果,提案モデルでは,ベースラインモデルよりも音声認識精度,音声認識精度,知覚品質が向上することが示唆された。
論文 参考訳(メタデータ) (2021-10-18T21:21:23Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - Transcribe-to-Diarize: Neural Speaker Diarization for Unlimited Number
of Speakers using End-to-End Speaker-Attributed ASR [44.181755224118696]
Transcribe-to-Diarizeは、エンド・ツー・エンド(E2E)話者による自動音声認識(SA-ASR)を用いたニューラルスピーカーダイアリゼーションの新しいアプローチである。
提案手法は,話者数不明の場合に,既存の話者ダイアリゼーション法よりも高いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-10-07T02:48:49Z) - Self-Supervised Learning for Personalized Speech Enhancement [25.05285328404576]
音声強調システムは、モデルを単一のテストタイムスピーカーに適応させることで、パフォーマンスを向上させることができる。
テスト時間ユーザーは少量のノイズのない音声データしか提供せず、従来の完全教師付き学習には不十分である。
本研究では,個人的音声記録から個人的・差別的な特徴を学習するための自己指導手法を提案する。
論文 参考訳(メタデータ) (2021-04-05T17:12:51Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。