論文の概要: Improving Voice Trigger Detection with Metric Learning
- arxiv url: http://arxiv.org/abs/2204.02455v1
- Date: Tue, 5 Apr 2022 18:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 15:27:16.589803
- Title: Improving Voice Trigger Detection with Metric Learning
- Title(参考訳): メトリック学習による音声トリガー検出の改善
- Authors: Prateeth Nayak, Takuya Higuchi, Anmol Gupta, Shivesh Ranjan, Stephen
Shum, Siddharth Sigtia, Erik Marchi, Varun Lakshminarasimhan, Minsik Cho,
Saurabh Adya, Chandra Dhir, Ahmed Tewfik
- Abstract要約: そこで本研究では,ターゲット話者からの発話を少数使用して検出精度を向上させる新しい音声トリガ検出器を提案する。
そして、登録発話の埋め込みとテスト発話との類似点として、パーソナライズされた音声トリガースコアを得る。
実験の結果,提案手法は偽拒絶率の38%を相対的に減少させることがわかった。
- 参考スコア(独自算出の注目度): 15.531040328839639
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice trigger detection is an important task, which enables activating a
voice assistant when a target user speaks a keyword phrase. A detector is
typically trained on speech data independent of speaker information and used
for the voice trigger detection task. However, such a speaker independent voice
trigger detector typically suffers from performance degradation on speech from
underrepresented groups, such as accented speakers. In this work, we propose a
novel voice trigger detector that can use a small number of utterances from a
target speaker to improve detection accuracy. Our proposed model employs an
encoder-decoder architecture. While the encoder performs speaker independent
voice trigger detection, similar to the conventional detector, the decoder
predicts a personalized embedding for each utterance. A personalized voice
trigger score is then obtained as a similarity score between the embeddings of
enrollment utterances and a test utterance. The personalized embedding allows
adapting to target speaker's speech when computing the voice trigger score,
hence improving voice trigger detection accuracy. Experimental results show
that the proposed approach achieves a 38% relative reduction in a false
rejection rate (FRR) compared to a baseline speaker independent voice trigger
model.
- Abstract(参考訳): 音声トリガー検出は重要なタスクであり、ターゲットユーザーがキーワードフレーズを話すときに音声アシスタントを活性化することができる。
検出器は通常、話者情報に依存しない音声データに基づいて訓練され、音声トリガー検出タスクに使用される。
しかし、そのような話者独立音声トリガー検出器は、アクセント付き話者のような低表示グループによる音声の性能低下に苦しむ。
そこで本研究では,ターゲット話者からの発話を少数使用して検出精度を向上させる新しい音声トリガ検出器を提案する。
提案モデルはエンコーダ-デコーダアーキテクチャを用いる。
エンコーダは従来の検出器と同様に話者独立音声トリガー検出を行うが、デコーダは発話毎にパーソナライズされた埋め込みを予測する。
次に、登録発話の埋め込みとテスト発話との類似度スコアとしてパーソナライズされた音声トリガースコアを得る。
パーソナライズされた埋め込みは、音声トリガスコアを計算するときに話者の音声に適応できるため、音声トリガ検出精度が向上する。
実験の結果,提案手法は,ベースライン話者独立音声トリガーモデルと比較して,偽拒絶率 (frr) の38%の相対的低減を達成した。
関連論文リスト
- Detecting the Undetectable: Assessing the Efficacy of Current Spoof Detection Methods Against Seamless Speech Edits [82.8859060022651]
音声入力編集(SINE)データセットをVoiceboxで作成する。
本手法を用いて編集した音声は従来のカット・アンド・ペースト法よりも検出が困難であることを確認した。
人的困難にもかかわらず, 自己監督型検出器は検出, 局所化, 一般化において顕著な性能を発揮することを示す実験結果が得られた。
論文 参考訳(メタデータ) (2025-01-07T14:17:47Z) - Investigation of Speaker Representation for Target-Speaker Speech Processing [49.110228525976794]
本論文は,目標話者音声処理タスクに好まれる話者埋め込みとは何か,という根本的な問題に対処することを目的としている。
TS-ASR, TSE, p-VADタスクでは, 対象話者の事前録音音声からの話者埋め込みを, 対象話者の同一性から直接1ホットベクトルの形で計算する事前学習話者エンコーダを比較した。
分析の結果,話者検証性能はTSタスク性能とは多少無関係であり,一ホットベクトルは入学者ベースよりも優れており,最適埋め込みは入力混合に依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-15T03:58:13Z) - Controllable speech synthesis by learning discrete phoneme-level
prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。
複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文 参考訳(メタデータ) (2022-11-29T15:43:36Z) - Human-in-the-loop Speaker Adaptation for DNN-based Multi-speaker TTS [36.023566245506046]
マルチ話者音声を対象としたヒューマン・イン・ザ・ループ話者適応手法を提案する。
提案手法では, ユーザに対して, 埋め込み空間内の線分上の点を選択するように繰り返し要求する逐次線探索アルゴリズムを用いる。
実験結果から,提案手法は客観的および主観的評価において従来の手法に匹敵する性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-21T11:08:05Z) - Enhancing Zero-Shot Many to Many Voice Conversion with Self-Attention
VAE [8.144263449781967]
変分自動エンコーダ(VAE)は、音声の発声を話者識別と言語内容の潜伏埋め込みに分解する有効なニューラルネットワークアーキテクチャである。
本研究では,VAEのデコーダの適切な位置から,変換音声を生成する際に,非局所情報を組み込む自己アテンション層を付加した。
論文 参考訳(メタデータ) (2022-03-30T03:52:42Z) - Personalized Keyphrase Detection using Speaker and Environment
Information [24.766475943042202]
単語からなるフレーズを大きな語彙から正確に検出するために、簡単にカスタマイズできるストリーミングキーフレーズ検出システムを紹介します。
本システムは,エンドツーエンドで訓練された自動音声認識(ASR)モデルと,テキスト非依存話者検証モデルを用いて実装される。
論文 参考訳(メタデータ) (2021-04-28T18:50:19Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z) - Knowledge Transfer for Efficient On-device False Trigger Mitigation [17.53768388104929]
間接的発話は「偽のトリガー」と呼ばれ、プライバシ中心のスマートアシスタントを設計するためには、偽のトリガー緩和(FTM)が不可欠である。
LSTMに基づくFTMアーキテクチャを提案する。このアーキテクチャは,ASRの書き起こしを明示的に生成することなく,音響的特徴から直接ユーザ意図を決定する。
論文 参考訳(メタデータ) (2020-10-20T20:01:44Z) - Joint Speaker Counting, Speech Recognition, and Speaker Identification
for Overlapped Speech of Any Number of Speakers [38.3469744871394]
エンドツーエンドの話者分散音声認識モデルを提案する。
重複した音声における話者カウント、音声認識、話者識別を統一する。
論文 参考訳(メタデータ) (2020-06-19T02:05:18Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z) - Improving speaker discrimination of target speech extraction with
time-domain SpeakerBeam [100.95498268200777]
SpeakerBeamは、ターゲット話者の適応発話を利用して、声の特徴を抽出する。
SpeakerBeamは、同じジェンダーのミキシングのように、話者が似たような音声特性を持つときに失敗することがある。
実験により、これらの戦略は、特に同性混合において、音声抽出性能を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2020-01-23T05:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。