論文の概要: Towards Data-efficient Modeling for Wake Word Spotting
- arxiv url: http://arxiv.org/abs/2010.06659v1
- Date: Tue, 13 Oct 2020 19:50:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 00:58:10.195396
- Title: Towards Data-efficient Modeling for Wake Word Spotting
- Title(参考訳): ウェイクワードスポッティングのためのデータ効率モデリングに向けて
- Authors: Yixin Gao, Yuriy Mishchenko, Anish Shah, Spyros Matsoukas, Shiv
Vitaladevuni
- Abstract要約: ウェークワードスポッティング(WW)は、信号伝達の干渉と音響環境の複雑さのため、遠方界では困難である。
従来のWWモデルは大量のドメイン内WW固有のデータを必要とする。
我々は、ドメインミスマッチ、ノイズ条件、限定アノテーションなど、WWモデリングにおける課題に対処する、データ効率のよいソリューションを提案する。
- 参考スコア(独自算出の注目度): 13.159304353728032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Wake word (WW) spotting is challenging in far-field not only because of the
interference in signal transmission but also the complexity in acoustic
environments. Traditional WW model training requires large amount of in-domain
WW-specific data with substantial human annotations therefore it is hard to
build WW models without such data. In this paper we present data-efficient
solutions to address the challenges in WW modeling, such as domain-mismatch,
noisy conditions, limited annotation, etc. Our proposed system is composed of a
multi-condition training pipeline with a stratified data augmentation, which
improves the model robustness to a variety of predefined acoustic conditions,
together with a semi-supervised learning pipeline to accurately extract the WW
and confusable examples from untranscribed speech corpus. Starting from only 10
hours of domain-mismatched WW audio, we are able to enlarge and enrich the
training dataset by 20-100 times to capture the acoustic complexity. Our
experiments on real user data show that the proposed solutions can achieve
comparable performance of a production-grade model by saving 97\% of the amount
of WW-specific data collection and 86\% of the bandwidth for annotation.
- Abstract(参考訳): ウェイクワードスポッティング(WW)は、信号伝達の干渉だけでなく、音響環境の複雑さのため、遠方界では困難である。
従来のWWモデルは大量のドメイン内WW固有のデータを必要とするため、そのようなデータなしでWWモデルを構築するのは難しい。
本稿では、ドメインミスマッチ、ノイズ条件、限定アノテーションなど、WWモデリングにおける課題を解決するためのデータ効率のソリューションを提案する。
本システムでは,事前定義された様々な音響条件に対するモデルのロバスト性を向上させる階層化データ拡張を含む多条件訓練パイプラインと,半教師あり学習パイプラインにより,未書き音声コーパスからwwおよびconsumusable例を高精度に抽出する。
ドメインミスマッチのwwオーディオはわずか10時間から始まり、トレーニングデータセットを20~100倍拡張し、音響複雑性を捉えることができます。
実ユーザデータを用いた実験により,提案手法は,ww固有のデータ収集量の97\%と,アノテーションの帯域幅の86\%を節約し,製品グレードモデルと同等の性能が得られることを示した。
関連論文リスト
- TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation [19.126525226518975]
パラメータと計算コストを大幅に削減した音声分離モデルを提案する。
TIGERは事前の知識を活用して周波数帯域を分割し、周波数情報を圧縮する。
我々は、TIGERが、最先端(SOTA)モデルTF-GridNetを上回る性能を達成することを示す。
論文 参考訳(メタデータ) (2024-10-02T12:21:06Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - A Scalable Training Strategy for Blind Multi-Distribution Noise Removal [0.0]
本稿では適応サンプリング/アクティブラーニング戦略を用いたネットワークの学習手法を提案する。
本研究は, 真の仕様空間の近似を組み込むことにより, 最近提案されたユニバーサルデノイザトレーニング戦略を改善した。
本手法はポアソン・ガウス・スペックル共振器の共振器雑音のシミュレーション実験を行い,提案手法を用いることで,単一ブラインド型一般雑音器ネットワークが一様有界な特定雑音器ネットワーク内でピーク信号-雑音比を達成できることを実証する。
論文 参考訳(メタデータ) (2023-10-30T22:29:07Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Reconstruction of Incomplete Wildfire Data using Deep Generative Models [0.0]
我々は、Missing Data Conditional-Weighted Autocoderen (CMIWAE)と呼ばれる強力な変分オートエンコーダモデルの変種を示す。
我々の深層変数生成モデルは機能エンジニアリングをほとんど必要とせず、必ずしもデータチャレンジのスコアの特異性に依存していません。
論文 参考訳(メタデータ) (2022-01-16T23:27:31Z) - BigSSL: Exploring the Frontier of Large-Scale Semi-Supervised Learning
for Automatic Speech Recognition [126.5605160882849]
事前学習,自己学習,モデルサイズのスケールアップの組み合わせによって,データの効率が大幅に向上することがわかった。
本稿では,大規模な下流タスクに対して,事前学習モデルと自己学習モデルを使用することによって得られる普遍的なメリットについて報告する。
論文 参考訳(メタデータ) (2021-09-27T17:59:19Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - DEEPF0: End-To-End Fundamental Frequency Estimation for Music and Speech
Signals [11.939409227407769]
DeepF0と呼ばれる新しいピッチ推定手法を提案する。
利用可能な注釈付きデータを活用して、データ駆動方式で生のオーディオから直接学習する。
論文 参考訳(メタデータ) (2021-02-11T23:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。