論文の概要: Low-resource Low-footprint Wake-word Detection using Knowledge
Distillation
- arxiv url: http://arxiv.org/abs/2207.03331v1
- Date: Wed, 6 Jul 2022 15:45:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 14:57:01.871211
- Title: Low-resource Low-footprint Wake-word Detection using Knowledge
Distillation
- Title(参考訳): 知識蒸留を用いた低リソース低フットプリントウェイクワード検出
- Authors: Arindam Ghosh, Mark Fuhs, Deblin Bagchi, Bahman Farahani, Monika
Woszczyna
- Abstract要約: 本稿では,大語彙音声認識における音響モデルデータの利用法について述べる。
実験は、オープンソースの"Hey Snips"データセットと、より困難な社内の遠距離データセットで実施されている。
- 参考スコア(独自算出の注目度): 2.9180169405333243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As virtual assistants have become more diverse and specialized, so has the
demand for application or brand-specific wake words. However, the
wake-word-specific datasets typically used to train wake-word detectors are
costly to create. In this paper, we explore two techniques to leverage acoustic
modeling data for large-vocabulary speech recognition to improve a
purpose-built wake-word detector: transfer learning and knowledge distillation.
We also explore how these techniques interact with time-synchronous training
targets to improve detection latency. Experiments are presented on the
open-source "Hey Snips" dataset and a more challenging in-house far-field
dataset. Using phone-synchronous targets and knowledge distillation from a
large acoustic model, we are able to improve accuracy across dataset sizes for
both datasets while reducing latency.
- Abstract(参考訳): 仮想アシスタントが多様化し、専門化されるにつれて、アプリケーションやブランド固有のウェイクワードの需要も高まっている。
しかし、ウェイクワード固有のデータセットは通常、ウェイクワード検出器のトレーニングに使用される。
本稿では,大語彙音声認識のための音響モデルデータを活用するための2つの手法について検討する。
また,検出レイテンシを改善するために,これらの手法が時間同期トレーニングターゲットとどのように相互作用するかについても検討した。
実験は、オープンソースの"hey snips"データセットと、より難しい社内のfar-fieldデータセットで行われている。
音素同期目標と大きな音響モデルからの知識蒸留を用いることで,両データセットのデータセットサイズ間の精度を向上し,レイテンシを低減できる。
関連論文リスト
- Leveraging Mixture of Experts for Improved Speech Deepfake Detection [53.69740463004446]
スピーチのディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な脅威をもたらす。
本研究では,Mixture of Expertsアーキテクチャを用いた音声深度検出性能の向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T13:24:03Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Topology combined machine learning for consonant recognition [8.188982461393278]
TopCapは、低次元の内在性を持つデータセットでまれに検出される特徴をキャプチャできる。
発声子音と無声子音の分類において、TopCapは96%を超える精度を達成している。
TopCapは、音声と音声の深層学習のためのトポロジ的畳み込み層の設計を目的としている。
論文 参考訳(メタデータ) (2023-11-26T06:53:56Z) - DiffusionEngine: Diffusion Model is Scalable Data Engine for Object
Detection [41.436817746749384]
Diffusion Modelはオブジェクト検出のためのスケーラブルなデータエンジンである。
DiffusionEngine(DE)は、高品質な検出指向のトレーニングペアを単一のステージで提供する。
論文 参考訳(メタデータ) (2023-09-07T17:55:01Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z) - Temporal Knowledge Distillation for On-device Audio Classification [2.2731658205414025]
本研究では,大規模モデルの注意重みに埋め込まれた時間的知識をデバイス上でのモデルに組み込むための新しい知識蒸留法を提案する。
提案手法は,様々なデバイスアーキテクチャにおける予測性能を向上させる。
論文 参考訳(メタデータ) (2021-10-27T02:29:54Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Deep Learning on Real Geophysical Data: A Case Study for Distributed
Acoustic Sensing Research [1.7237878022600697]
地震データから使用可能なエネルギーを識別するために, 微調整, 効率的スケールの深層学習分類器を提案する。
16倍のGPUを使用すれば、5万のデータセット上で2桁以上のトレーニング速度を向上できることを示す。
論文 参考訳(メタデータ) (2020-10-15T15:59:52Z) - Multi-task Learning for Voice Trigger Detection [9.916299448089259]
スマートスピーカーのための音声トリガー検出システムの設計について述べる。
検出器は複雑な音響環境に展開され、外部ノイズと装置自体による大音量再生が可能である。
マルチタスク学習を用いてモデルを訓練し,正確な音声書き起こしを同時に生成する。
論文 参考訳(メタデータ) (2020-01-26T21:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。