論文の概要: A Speaker Verification Backend with Robust Performance across Conditions
- arxiv url: http://arxiv.org/abs/2102.01760v1
- Date: Tue, 2 Feb 2021 21:27:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 17:12:00.059917
- Title: A Speaker Verification Backend with Robust Performance across Conditions
- Title(参考訳): 条件にまたがるロバストな性能を持つ話者照合バックエンド
- Authors: Luciana Ferrer, Mitchell McLaren, Niko Brummer
- Abstract要約: 話者検証の標準的な方法は、ディープニューラルネットワークを用いた話者埋め込みを抽出することである。
この方法は、キャリブレーションモデルのトレーニングに使用されるものと異なる条件でうまく動作しないシステムをもたらすことが知られている。
本稿では,入力の条件に適応するために,時間などの情報を自動的に抽出するアダプティブキャリブレータを導入することで,標準バックエンドを変更することを提案する。
- 参考スコア(独自算出の注目度): 28.64769660252556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the problem of speaker verification in conditions
unseen or unknown during development. A standard method for speaker
verification consists of extracting speaker embeddings with a deep neural
network and processing them through a backend composed of probabilistic linear
discriminant analysis (PLDA) and global logistic regression score calibration.
This method is known to result in systems that work poorly on conditions
different from those used to train the calibration model. We propose to modify
the standard backend, introducing an adaptive calibrator that uses duration and
other automatically extracted side-information to adapt to the conditions of
the inputs. The backend is trained discriminatively to optimize binary
cross-entropy. When trained on a number of diverse datasets that are labeled
only with respect to speaker, the proposed backend consistently and, in some
cases, dramatically improves calibration, compared to the standard PLDA
approach, on a number of held-out datasets, some of which are markedly
different from the training data. Discrimination performance is also
consistently improved. We show that joint training of the PLDA and the adaptive
calibrator is essential -- the same benefits cannot be achieved when freezing
PLDA and fine-tuning the calibrator. To our knowledge, the results in this
paper are the first evidence in the literature that it is possible to develop a
speaker verification system with robust out-of-the-box performance on a large
variety of conditions.
- Abstract(参考訳): 本稿では,開発中の未知・未知の状況における話者検証の問題について述べる。
話者照合の標準的な方法は、ディープニューラルネットワークを用いて話者埋め込みを抽出し、確率線形判別分析(plda)とグローバルロジスティック回帰スコア校正からなるバックエンドで処理することである。
この方法は、キャリブレーションモデルのトレーニングに使用されるものと異なる条件でうまく動作しないシステムをもたらすことが知られている。
入力条件に適応するために、持続時間などの自動抽出側情報を用いた適応キャリブレータを導入し、標準バックエンドの修正を提案します。
バックエンドはバイナリのクロスエントロピーを最適化するために差別的に訓練される。
話者に対してのみラベル付けされた多数の多様なデータセットでトレーニングされた場合、提案されているバックエンドは一貫して、場合によっては標準のpldaアプローチと比較して、いくつかの保持されたデータセットでキャリブレーションを劇的に改善する。
差別性能も一貫して向上します。
PLDAと適応キャリブレータの併用訓練は必須であり,PLDAの凍結やキャリブレータの微調整では同様の効果が得られない。
私たちの知る限り、本論文の結果は、さまざまな条件下で安定したアウトオブボックスのパフォーマンスを持つスピーカー検証システムを開発することができるという文献の最初の証拠です。
関連論文リスト
- Adaptive Conformal Inference by Betting [51.272991377903274]
データ生成プロセスについて仮定することなく適応型共形推論の問題を考察する。
適応型共形推論のための既存のアプローチは、オンライン勾配勾配の変種を用いたピンボール損失の最適化に基づいている。
本稿では,パラメータフリーなオンライン凸最適化手法を利用した適応型共形推論手法を提案する。
論文 参考訳(メタデータ) (2024-12-26T18:42:08Z) - C-TPT: Calibrated Test-Time Prompt Tuning for Vision-Language Models via Text Feature Dispersion [54.81141583427542]
深層学習において,ラベル付きデータを必要としない微調整手法としてテスト時間適応が注目されている。
本稿では,CLIPの固有特性を利用したテスト時プロンプトチューニング時の校正について検討する。
そこで本研究では,C-TPT(Calibrated Test-time Prompt Tuning)という,キャリブレーションの強化によるテスト時間中のプロンプトの最適化手法を提案する。
論文 参考訳(メタデータ) (2024-03-21T04:08:29Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - DELTA: degradation-free fully test-time adaptation [59.74287982885375]
テスト時間バッチ正規化(BN)や自己学習といった,一般的な適応手法では,2つの好ましくない欠陥が隠されていることがわかった。
まず、テスト時間BNにおける正規化統計は、現在受信されているテストサンプルに完全に影響され、その結果、不正確な推定結果が得られることを明らかにする。
第二に、テスト時間適応中にパラメータ更新が支配的なクラスに偏っていることを示す。
論文 参考訳(メタデータ) (2023-01-30T15:54:00Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Investigation of Different Calibration Methods for Deep Speaker
Embedding based Verification Systems [66.61691401921296]
本稿では, ディープスピーカ埋込抽出器のスコアキャリブレーション法について検討する。
この研究のさらなる焦点は、スコア正規化がシステムの校正性能に与える影響を推定することである。
論文 参考訳(メタデータ) (2022-03-28T21:22:22Z) - Insta-RS: Instance-wise Randomized Smoothing for Improved Robustness and
Accuracy [9.50143683501477]
Insta-RSは、テスト例にカスタマイズされたガウス分散を割り当てるマルチスタート検索アルゴリズムである。
Insta-RS Trainは、各トレーニング例のノイズレベルを適応的に調整し、カスタマイズする新しい2段階トレーニングアルゴリズムです。
本手法は,平均認定半径(ACR)とクリーンデータ精度を有意に向上させることを示した。
論文 参考訳(メタデータ) (2021-03-07T19:46:07Z) - Calibrating Structured Output Predictors for Natural Language Processing [8.361023354729731]
本稿では,ニューラルネットワークに基づく構造化予測モデルに注目する出力要素の一般的なキャリブレーション手法を提案する。
提案手法は,任意のバイナリクラスキャリブレーションスキームとニューラルネットワークモデルを用いて適用することができる。
提案手法は, 話者認識, パート・オブ・音声, 質問応答における現在のキャリブレーション手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-04-09T04:14:46Z) - A Speaker Verification Backend for Improved Calibration Performance
across Varying Conditions [21.452221762153577]
そこで本研究では,事前校正性能を良好に向上する話者検証のための識別バックエンドを提案する。
バックエンドのすべてのパラメータは、話者検証タスクのバイナリクロスエントロピーを最適化するために共同で訓練される。
本手法は,従来の提案手法と類似した性能を提供するが,実装が簡単で,トレーニングデータに対する要件も少ないことを示す。
論文 参考訳(メタデータ) (2020-02-05T15:37:46Z) - Pairwise Discriminative Neural PLDA for Speaker Verification [41.76303371621405]
本稿では,話者検証作業のためのPairwise Neural Discriminative Modelを提案する。
我々は,話者の検証損失を近似する微分可能なコスト関数を構築した。
NIST SRE 2018の開発および評価データセット上で実験が実施されている。
論文 参考訳(メタデータ) (2020-01-20T09:52:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。