論文の概要: SVVAD: Personal Voice Activity Detection for Speaker Verification
- arxiv url: http://arxiv.org/abs/2305.19581v1
- Date: Wed, 31 May 2023 05:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 18:18:43.092565
- Title: SVVAD: Personal Voice Activity Detection for Speaker Verification
- Title(参考訳): SVVAD:話者認証のための個人音声活動検出
- Authors: Zuheng Kang, Jianzong Wang, Junqing Peng, Jing Xiao
- Abstract要約: 話者検証(SV)において最も有用な音声特徴に適応できる話者検証に基づく音声活動検出(SVVAD)フレームワークを提案する。
実験により、SVVADは、他の話者が異なる比率で混合される条件下で、同じ誤差率(EER)でベースラインを著しく上回ることが示された。
- 参考スコア(独自算出の注目度): 24.57668015470307
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice activity detection (VAD) improves the performance of speaker
verification (SV) by preserving speech segments and attenuating the effects of
non-speech. However, this scheme is not ideal: (1) it fails in noisy
environments or multi-speaker conversations; (2) it is trained based on
inaccurate non-SV sensitive labels. To address this, we propose a speaker
verification-based voice activity detection (SVVAD) framework that can adapt
the speech features according to which are most informative for SV. To achieve
this, we introduce a label-free training method with triplet-like losses that
completely avoids the performance degradation of SV due to incorrect labeling.
Extensive experiments show that SVVAD significantly outperforms the baseline in
terms of equal error rate (EER) under conditions where other speakers are mixed
at different ratios. Moreover, the decision boundaries reveal the importance of
the different parts of speech, which are largely consistent with human
judgments.
- Abstract(参考訳): 音声活動検出(vad)は、音声セグメントを保存し、非音声の効果を弱めることにより、話者照合(sv)の性能を向上させる。
しかし,この方式は理想的ではない。(1)ノイズの多い環境や複数話者会話で失敗し,(2)不正確な非SVセンシティブなラベルに基づいて訓練される。
そこで本研究では,svに最も有益である音声特徴量に応じて適応可能な話者照合に基づく音声活動検出(svvad)フレームワークを提案する。
そこで本研究では,不正確なラベル付けによるsvの性能低下を完全に回避するトリプレット様損失を伴うラベルフリートレーニング手法を提案する。
SVVADは、他の話者が異なる比率で混合される条件下で、同じ誤差率(EER)でベースラインを著しく上回ることを示す。
さらに、決定境界は、人間の判断とほぼ一致した、発話の異なる部分の重要性を明らかにする。
関連論文リスト
- Speaker Tagging Correction With Non-Autoregressive Language Models [0.0]
非自己回帰言語モデルに基づく話者タグ付け補正システムを提案する。
提案手法は, 単語ダイアリゼーション誤り率 (WDER) を2つのデータセットで減少させる。
論文 参考訳(メタデータ) (2024-08-30T11:02:17Z) - Disentangling Voice and Content with Self-Supervision for Speaker
Recognition [57.446013973449645]
本稿では,音声における話者の特性と内容の変動を同時にモデル化するアンタングル化フレームワークを提案する。
実験はVoxCelebとSITWのデータセットで実施され、EERとminDCFの平均減少率は9.56%と8.24%である。
論文 参考訳(メタデータ) (2023-10-02T12:02:07Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Learning from human perception to improve automatic speaker verification
in style-mismatched conditions [21.607777746331998]
我々の以前の実験は、人間と機械が話者識別に異なるアプローチを採っていることを示している。
我々は、人間の知覚から学んだ洞察を用いて、「CllrCE損失」と呼ぶ新しい訓練損失関数を設計する。
CllrCE損失は、話者固有の慣用性と話者間の相対音響距離の両方を用いてASVシステムを訓練する。
論文 参考訳(メタデータ) (2022-06-28T01:24:38Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Self-supervised Speaker Recognition Training Using Human-Machine
Dialogues [22.262550043863445]
顧客とスマートスピーカーデバイス間の対話を利用して、話者認識モデルを事前訓練する方法を検討する。
本稿では,その音響的均一性に基づいて対話から選択的に学習する効果的な拒絶機構を提案する。
実験により,提案手法は従来よりも優れた性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-02-07T19:44:54Z) - PL-EESR: Perceptual Loss Based END-TO-END Robust Speaker Representation
Extraction [90.55375210094995]
音声強調は、背景雑音の抑制による音声信号の知覚品質の向上を目的としている。
本稿では,頑健な話者表現抽出のためのエンドツーエンドディープラーニングフレームワークPL-EESRを提案する。
論文 参考訳(メタデータ) (2021-10-03T07:05:29Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - FragmentVC: Any-to-Any Voice Conversion by End-to-End Extracting and
Fusing Fine-Grained Voice Fragments With Attention [66.77490220410249]
本稿では、Wav2Vec 2.0から、音源話者からの発声の潜在音声構造を求めるFragmentVCを提案する。
FragmentVCは、ターゲット話者発話からきめ細かい音声断片を抽出し、所望の発話に融合することができる。
提案手法は, コンテンツと話者情報との絡み合いを考慮せずに, 再構成損失を学習する。
論文 参考訳(メタデータ) (2020-10-27T09:21:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。