論文の概要: Wake Word Detection with Alignment-Free Lattice-Free MMI
- arxiv url: http://arxiv.org/abs/2005.08347v3
- Date: Tue, 28 Jul 2020 22:06:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 05:52:43.013412
- Title: Wake Word Detection with Alignment-Free Lattice-Free MMI
- Title(参考訳): アライメントフリーな格子フリーMMIによるウェイクワード検出
- Authors: Yiming Wang, Hang Lv, Daniel Povey, Lei Xie, Sanjeev Khudanpur
- Abstract要約: 音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
- 参考スコア(独自算出の注目度): 66.12175350462263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Always-on spoken language interfaces, e.g. personal digital assistants, rely
on a wake word to start processing spoken input. We present novel methods to
train a hybrid DNN/HMM wake word detection system from partially labeled
training data, and to use it in on-line applications: (i) we remove the
prerequisite of frame-level alignments in the LF-MMI training algorithm,
permitting the use of un-transcribed training examples that are annotated only
for the presence/absence of the wake word; (ii) we show that the classical
keyword/filler model must be supplemented with an explicit non-speech (silence)
model for good performance; (iii) we present an FST-based decoder to perform
online detection. We evaluate our methods on two real data sets, showing
50%--90% reduction in false rejection rates at pre-specified false alarm rates
over the best previously published figures, and re-validate them on a third
(large) data set.
- Abstract(参考訳): 音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存する。
本稿では,部分ラベル付き学習データからハイブリッドdnn/hmmウェイクワード検出システムを学習し,オンラインアプリケーションで使用する新しい手法を提案する。
i) LF-MMIトレーニングアルゴリズムにおけるフレームレベルのアライメントの前提条件を除去し、ウェイクワードの存在/存在のために注釈付けされた未転写トレーニング例の使用を可能にする。
(ii)古典的なキーワード/フィラーモデルは、優れたパフォーマンスを得るために明示的な非音声(サイレンス)モデルで補わなければならないことを示す。
3) オンライン検出を行うためのFSTベースのデコーダを提案する。
提案手法を2つの実データ集合上で評価し,事前特定誤報率の50%~90%の低減率を示し,第3(大)データセットで再検証した。
関連論文リスト
- Gibberish is All You Need for Membership Inference Detection in Contrastive Language-Audio Pretraining [3.7144455366570055]
既存のMIAは入力としてオーディオを必要とし、音声プリントの露出を危険にさらし、コストのかかるシャドウモデルを必要とする。
我々はまず,CLAPが与える会員推論検出に基づく確率ランキングである PRMID を提案し,訓練シャドウモデルを必要としない。
次に,テキストデータのみを用いて対象モデルを問合せする一助話者レベルメンバシップ推定器USMIDを提案する。
論文 参考訳(メタデータ) (2024-10-24T02:26:57Z) - Detecting Pretraining Data from Large Language Models [90.12037980837738]
事前学習データ検出問題について検討する。
事前学習データを知ることなく、テキスト片とLCMへのブラックボックスアクセスを条件に、モデルが提供されたテキストでトレーニングされたかどうかを判断できますか?
簡単な仮説に基づく新しい検出手法Min-K% Probを提案する。
論文 参考訳(メタデータ) (2023-10-25T17:21:23Z) - Ethicist: Targeted Training Data Extraction Through Loss Smoothed Soft
Prompting and Calibrated Confidence Estimation [56.57532238195446]
本研究では,対象とするトレーニングデータ抽出のためのEthicistという手法を提案する。
メモリ化を誘発するため、モデルを固定しながらソフトなプロンプト埋め込みをチューニングする。
我々は,最近提案された公開ベンチマークにおいて,エティシストが抽出性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-07-10T08:03:41Z) - Three ways to improve feature alignment for open vocabulary detection [88.65076922242184]
ゼロショットオープンボキャブラリ検出の鍵となる問題は、視覚的特徴とテキスト的特徴の整合性である。
以前のアプローチでは、特徴ピラミッドと検出ヘッドをゼロからトレーニングし、事前トレーニング中に確立された視覚テキストの特徴アライメントを壊す。
本稿では,これらの問題を緩和する3つの方法を提案する。まず,テキストの埋め込みを強化するための簡単なスキームを用いて,学習中に見られる少数のクラスへの過度な適合を防止する。
次に、特徴ピラミッドネットワークと検出ヘッドをトレーニング可能なショートカットを含むように変更する。
最後に、より大きなコーパスを活用するために、自己学習アプローチが使用される。
論文 参考訳(メタデータ) (2023-03-23T17:59:53Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - HEiMDaL: Highly Efficient Method for Detection and Localization of
wake-words [8.518479417031775]
ストリーミングキーワードスポッティングは、音声アシスタントを活性化するための広く使われているソリューションである。
本稿では,ストリーム条件におけるキーワードの検出とローカライズを行うために,HEiMDaLと呼ばれる低フットプリントCNNモデルを提案する。
論文 参考訳(メタデータ) (2022-10-26T17:26:57Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Device-Directed Speech Detection: Regularization via Distillation for
Weakly-Supervised Models [13.456066434598155]
我々は、特定のウェイクワードを含まないデバイスに向けられた音声を検出する問題に対処する。
具体的には、タッチベースの呼び出しによるオーディオに焦点を当てます。
論文 参考訳(メタデータ) (2022-03-30T01:27:39Z) - Semi-Supervised Speech Recognition via Local Prior Matching [42.311823406287864]
局所的な事前マッチングは、強い事前から知識を蒸留する半教師付き目的である。
我々は,LPMが理論的に良好であり,実装が容易であり,既存の知識蒸留技術よりも優れていることを実証した。
論文 参考訳(メタデータ) (2020-02-24T16:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。