論文の概要: Why Did the x-Vector System Miss a Target Speaker? Impact of Acoustic
Mismatch Upon Target Score on VoxCeleb Data
- arxiv url: http://arxiv.org/abs/2008.04578v1
- Date: Tue, 11 Aug 2020 08:33:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-06 13:59:06.880643
- Title: Why Did the x-Vector System Miss a Target Speaker? Impact of Acoustic
Mismatch Upon Target Score on VoxCeleb Data
- Title(参考訳): x-Vectorはなぜターゲットスピーカーを見逃したのか?
ターゲットスコアの音響ミスマッチがVoxCelebデータに及ぼす影響
- Authors: Rosa Gonz\'alez Hautam\"aki and Tomi Kinnunen
- Abstract要約: ターゲット話者の誤りを説明するミスマッチ要因(偽拒絶)を同定することを目的とする。
VoxCeleb のデータから,F0 平均値に最も顕著なミスマッチ因子がみられ,次いでホルマント周波数に関連付けられたミスマッチがみられた。
- 参考スコア(独自算出の注目度): 11.704409355000767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern automatic speaker verification (ASV) relies heavily on machine
learning implemented through deep neural networks. It can be difficult to
interpret the output of these black boxes. In line with interpretative machine
learning, we model the dependency of ASV detection score upon acoustic mismatch
of the enrollment and test utterances. We aim to identify mismatch factors that
explain target speaker misses (false rejections). We use distance in the first-
and second-order statistics of selected acoustic features as the predictors in
a linear mixed effects model, while a standard Kaldi x-vector system forms our
ASV black-box. Our results on the VoxCeleb data reveal the most prominent
mismatch factor to be in F0 mean, followed by mismatches associated with
formant frequencies. Our findings indicate that x-vector systems lack
robustness to intra-speaker variations.
- Abstract(参考訳): 現代の自動話者検証(ASV)は、ディープニューラルネットワークによって実装された機械学習に大きく依存している。
これらのブラックボックスの出力を解釈することは困難である。
本研究では,asv検出スコアの音響的ミスマッチに対する依存度を,解釈的機械学習に則ってモデル化する。
目的とする話者ミス(偽拒絶)を説明するミスマッチ要因を特定することを目的とした。
線形混合効果モデルの予測器として,選択した音響特徴の1次および2次統計において距離を用い,標準kaldi x-vector系がasvブラックボックスを形成する。
VoxCeleb のデータから,F0 平均値に最も顕著なミスマッチ因子がみられ,次いでホルマント周波数に関連付けられたミスマッチがみられた。
以上の結果から,x-vector系は話者内変動に対するロバスト性に乏しいことが示唆された。
関連論文リスト
- DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Learning from human perception to improve automatic speaker verification
in style-mismatched conditions [21.607777746331998]
我々の以前の実験は、人間と機械が話者識別に異なるアプローチを採っていることを示している。
我々は、人間の知覚から学んだ洞察を用いて、「CllrCE損失」と呼ぶ新しい訓練損失関数を設計する。
CllrCE損失は、話者固有の慣用性と話者間の相対音響距離の両方を用いてASVシステムを訓練する。
論文 参考訳(メタデータ) (2022-06-28T01:24:38Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - DAAIN: Detection of Anomalous and Adversarial Input using Normalizing
Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。
本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。
当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文 参考訳(メタデータ) (2021-05-30T22:07:13Z) - FoolHD: Fooling speaker identification by Highly imperceptible
adversarial Disturbances [63.80959552818541]
話者識別モデルに対する知覚不能な摂動を発生させるホワイトボックス・ステガノグラフィーによる敵攻撃を提案する。
我々のアプローチであるFoolHDは、DCTドメインで動作するGated Convolutional Autoencoderを使用し、多目的損失関数で訓練されている。
我々は,VoxCelebを用いて訓練した250話者識別xベクトルネットワークを用いてFoolHDを検証する。
論文 参考訳(メタデータ) (2020-11-17T07:38:26Z) - Extrapolating false alarm rates in automatic speaker verification [27.462672479917565]
自動話者検証(ASV)ベンダーとコーパスプロバイダはどちらも、新しい話者を集めることなく、大規模話者に対するパフォーマンス指標を確実に外挿するツールの恩恵を受けるだろう。
最悪の場合, 対象話者に最も近づいた話者に対して, 相手が最も近づいた話者を同定し, 誤報率の外挿に対処する。
私たちのモデルは生成可能であり、新しい話者をサンプリングすることができます。
論文 参考訳(メタデータ) (2020-08-08T20:31:57Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z) - Vector-quantized neural networks for acoustic unit discovery in the
ZeroSpeech 2020 challenge [26.114011076658237]
音声の離散表現を学習する問題に対処する2つのニューラルモデルを提案する。
第1モデルはベクトル量子化変分オートエンコーダ(VQ-VAE)の一種である。
第2のモデルはベクトル量子化と対比予測符号化(VQ-CPC)を組み合わせる
我々は、ZeroSpeech 2020チャレンジにおいて、英語とインドネシア語のデータをモデルとして評価した。
論文 参考訳(メタデータ) (2020-05-19T13:06:17Z) - Estimating g-Leakage via Machine Learning [34.102705643128004]
本稿では,ブラックボックスシナリオにおけるシステムの情報漏洩を推定する問題について考察する。
システムの内部は学習者にとって未知であり、分析するには複雑すぎると仮定される。
機械学習(ML)アルゴリズムを用いて,g-vulnerabilityをブラックボックスで推定する手法を提案する。
論文 参考訳(メタデータ) (2020-05-09T09:26:36Z) - Unsupervised Speaker Adaptation using Attention-based Speaker Memory for
End-to-End ASR [61.55606131634891]
エンドツーエンド音声認識(E2E)のためのニューラルチューリングマシンにインスパイアされた教師なし話者適応手法を提案する。
提案モデルでは,学習データから抽出した話者i-vectorを格納し,注意機構を通じてメモリから関連i-vectorを読み取るメモリブロックを含む。
テスト時に補助的な話者埋め込み抽出システムを必要としないMベクトルは、単話者発話のiベクトルと類似の単語誤り率(WER)を達成し、話者変化がある発話のWERを著しく低下させることを示す。
論文 参考訳(メタデータ) (2020-02-14T18:31:31Z) - CURE Dataset: Ladder Networks for Audio Event Classification [15.850545634216484]
約300万人が聴覚障害を抱えており、周囲で起きている出来事を認識できない。
本稿では,難聴者に対して最も関連性の高い特定の音声イベントをキュレートしたCUREデータセットを確立する。
論文 参考訳(メタデータ) (2020-01-12T09:35:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。