論文の概要: Multi-task Learning for Voice Trigger Detection
- arxiv url: http://arxiv.org/abs/2001.09519v2
- Date: Mon, 20 Apr 2020 09:05:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 19:08:40.034539
- Title: Multi-task Learning for Voice Trigger Detection
- Title(参考訳): 音声トリガー検出のためのマルチタスク学習
- Authors: Siddharth Sigtia, Pascal Clark, Rob Haynes, Hywel Richards, John
Bridle
- Abstract要約: スマートスピーカーのための音声トリガー検出システムの設計について述べる。
検出器は複雑な音響環境に展開され、外部ノイズと装置自体による大音量再生が可能である。
マルチタスク学習を用いてモデルを訓練し,正確な音声書き起こしを同時に生成する。
- 参考スコア(独自算出の注目度): 9.916299448089259
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe the design of a voice trigger detection system for smart
speakers. In this study, we address two major challenges. The first is that the
detectors are deployed in complex acoustic environments with external noise and
loud playback by the device itself. Secondly, collecting training examples for
a specific keyword or trigger phrase is challenging resulting in a scarcity of
trigger phrase specific training data. We describe a two-stage cascaded
architecture where a low-power detector is always running and listening for the
trigger phrase. If a detection is made at this stage, the candidate audio
segment is re-scored by larger, more complex models to verify that the segment
contains the trigger phrase. In this study, we focus our attention on the
architecture and design of these second-pass detectors. We start by training a
general acoustic model that produces phonetic transcriptions given a large
labelled training dataset. Next, we collect a much smaller dataset of examples
that are challenging for the baseline system. We then use multi-task learning
to train a model to simultaneously produce accurate phonetic transcriptions on
the larger dataset \emph{and} discriminate between true and easily confusable
examples using the smaller dataset. Our results demonstrate that the proposed
model reduces errors by half compared to the baseline in a range of challenging
test conditions \emph{without} requiring extra parameters.
- Abstract(参考訳): スマートスピーカーのための音声トリガー検出システムの設計について述べる。
本研究では,2つの課題に対処する。
第1に、検出器は複雑な音響環境に展開され、外部ノイズとデバイス自体による大音量再生が可能である。
第二に、特定のキーワードやトリガーフレーズのトレーニング例を集めることは、トリガーフレーズ固有のトレーニングデータの不足につながる。
本稿では、低消費電力検出器が常に動作し、トリガーフレーズを聴く2段階のケースドアーキテクチャについて述べる。
この段階で検出が行われると、候補オーディオセグメントはより大きく複雑なモデルによって再描画され、セグメントがトリガーフレーズを含んでいることを確認する。
本研究では,この第2パス検出器のアーキテクチャと設計に注目した。
まず,大規模なラベル付き学習データセットから音声の書き起こしを生成する一般的な音響モデルを訓練する。
次に、ベースラインシステムにとって困難な、はるかに小さな例のデータセットを収集します。
次に、マルチタスク学習を用いてモデルをトレーニングし、より大規模なデータセットであるemph{and}上で正確な音声書き起こしを同時に生成する。
実験結果から,提案モデルでは,余分なパラメータを必要とする難解なテスト条件であるemph{without}の基準値に対して,誤差を半減することを示した。
関連論文リスト
- Gibberish is All You Need for Membership Inference Detection in Contrastive Language-Audio Pretraining [3.7144455366570055]
既存のMIAは入力としてオーディオを必要とし、音声プリントの露出を危険にさらし、コストのかかるシャドウモデルを必要とする。
我々はまず,CLAPが与える会員推論検出に基づく確率ランキングである PRMID を提案し,訓練シャドウモデルを必要としない。
次に,テキストデータのみを用いて対象モデルを問合せする一助話者レベルメンバシップ推定器USMIDを提案する。
論文 参考訳(メタデータ) (2024-10-24T02:26:57Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Multimodal Data and Resource Efficient Device-Directed Speech Detection
with Large Foundation Models [43.155061160275196]
トリガーフレーズを不要にすることで,仮想アシスタントとの対話をより自然なものにする可能性を探る。
我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。
本稿では,音声認識システムからの1-best仮説とデコーダ信号と,オーディオエンコーダからの音響表現を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-06T17:29:03Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - Learning Phone Recognition from Unpaired Audio and Phone Sequences Based
on Generative Adversarial Network [58.82343017711883]
そこで本研究では,不適切な音声系列や発話から直接学習する方法について検討する。
GAN訓練を第1段階に導入し,無声音声と音声シーケンスのマッピング関係を求める。
第2段階では、発電機の出力からトレーニングするために別のHMMモデルが導入され、性能が向上する。
論文 参考訳(メタデータ) (2022-07-29T09:29:28Z) - Device-Directed Speech Detection: Regularization via Distillation for
Weakly-Supervised Models [13.456066434598155]
我々は、特定のウェイクワードを含まないデバイスに向けられた音声を検出する問題に対処する。
具体的には、タッチベースの呼び出しによるオーディオに焦点を当てます。
論文 参考訳(メタデータ) (2022-03-30T01:27:39Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Integrated Replay Spoofing-aware Text-independent Speaker Verification [47.41124427552161]
本稿では,話者認証と提示攻撃検出の統合システムを構築するための2つのアプローチを提案する。
第1のアプローチは、話者識別、提示攻撃検出、マルチタスク学習を用いた統合システムとを同時に訓練する。
本稿では、話者検証と提示攻撃検出に分離されたディープニューラルネットワーク(DNN)を用いたバックエンドモジュール方式を提案する。
論文 参考訳(メタデータ) (2020-06-10T01:24:55Z) - Multi-task Learning for Speaker Verification and Voice Trigger Detection [18.51531434428444]
両タスクを共同で行うための1つのネットワークのトレーニングについて検討する。
本研究では,数千時間のラベル付きトレーニングデータを用いてモデルを訓練する大規模実証的研究を提案する。
以上の結果から,学習表現において,両話者情報を符号化できることが示唆された。
論文 参考訳(メタデータ) (2020-01-26T21:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。