論文の概要: Integrated Replay Spoofing-aware Text-independent Speaker Verification
- arxiv url: http://arxiv.org/abs/2006.05599v2
- Date: Sun, 27 Sep 2020 10:28:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 06:36:21.561921
- Title: Integrated Replay Spoofing-aware Text-independent Speaker Verification
- Title(参考訳): リプレイスプーフィングアウェアテキスト非依存話者照合の統合化
- Authors: Hye-jin Shim, Jee-weon Jung, Ju-ho Kim, Seung-bin Kim, Ha-Jin Yu
- Abstract要約: 本稿では,話者認証と提示攻撃検出の統合システムを構築するための2つのアプローチを提案する。
第1のアプローチは、話者識別、提示攻撃検出、マルチタスク学習を用いた統合システムとを同時に訓練する。
本稿では、話者検証と提示攻撃検出に分離されたディープニューラルネットワーク(DNN)を用いたバックエンドモジュール方式を提案する。
- 参考スコア(独自算出の注目度): 47.41124427552161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A number of studies have successfully developed speaker verification or
presentation attack detection systems. However, studies integrating the two
tasks remain in the preliminary stages. In this paper, we propose two
approaches for building an integrated system of speaker verification and
presentation attack detection: an end-to-end monolithic approach and a back-end
modular approach. The first approach simultaneously trains speaker
identification, presentation attack detection, and the integrated system using
multi-task learning using a common feature. However, through experiments, we
hypothesize that the information required for performing speaker verification
and presentation attack detection might differ because speaker verification
systems try to remove device-specific information from speaker embeddings,
while presentation attack detection systems exploit such information.
Therefore, we propose a back-end modular approach using a separate deep neural
network (DNN) for speaker verification and presentation attack detection. This
approach has thee input components: two speaker embeddings (for enrollment and
test each) and prediction of presentation attacks. Experiments are conducted
using the ASVspoof 2017-v2 dataset, which includes official trials on the
integration of speaker verification and presentation attack detection. The
proposed back-end approach demonstrates a relative improvement of 21.77% in
terms of the equal error rate for integrated trials compared to a conventional
speaker verification system.
- Abstract(参考訳): 多くの研究が話者検証やプレゼンテーション攻撃検知システムの開発に成功している。
しかし、2つのタスクを統合する研究は、まだ初期段階にある。
本稿では,エンドツーエンドモノリシックアプローチとバックエンドモジュールアプローチという,話者検証とプレゼンテーション攻撃検出の統合システムを構築するための2つのアプローチを提案する。
第1のアプローチは,共通特徴を用いたマルチタスク学習を用いた話者識別,提示攻撃検出,統合システムの同時学習である。
しかし,話者認証システムは,話者埋め込みからデバイス固有の情報を除去しようとするが,プレゼンテーションアタック検出システムはそのような情報を利用するため,実験により,話者検証とプレゼンテーションアタック検出に必要な情報が異なる可能性があると仮定した。
そこで本研究では,話者照合とプレゼンテーションアタック検出にdnn(dispartment deep neural network)を用いたバックエンドモジュール方式を提案する。
このアプローチには2つの話者埋め込み(それぞれ登録とテスト)とプレゼンテーションアタックの予測という入力コンポーネントがある。
ASVspoof 2017-v2データセットを使用して、話者検証とプレゼンテーションアタック検出の統合に関する公式トライアルを含む実験が行われている。
提案したバックエンドアプローチは、従来の話者検証システムと比較して、統合試行において等しい誤差率で21.77%の相対的な改善を示す。
関連論文リスト
- Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Meta-Learning Framework for End-to-End Imposter Identification in Unseen
Speaker Recognition [4.143603294943441]
未確認話者認識における不適切な識別のための固定しきい値(EERメトリックを用いた計算)を用いた一般化の問題を示す。
次に、より優れた性能を実現するために、頑健な話者特異的しきい値設定手法を導入する。
提案手法の有効性をVoxCeleb1, VCTK, FFSVC 2022データセットで示し, ベースラインを最大10%上回った。
論文 参考訳(メタデータ) (2023-06-01T17:49:58Z) - Exploring Speaker-Related Information in Spoken Language Understanding
for Better Speaker Diarization [7.673971221635779]
多人数会議におけるセマンティックコンテンツから話者関連情報を抽出する手法を提案する。
AISHELL-4とAliMeetingの2つのデータセットを用いた実験により,本手法は音響のみの話者ダイアリゼーションシステムよりも一貫した改善を実現することが示された。
論文 参考訳(メタデータ) (2023-05-22T11:14:19Z) - Symmetric Saliency-based Adversarial Attack To Speaker Identification [17.087523686496958]
我々は、対称サリエンシに基づくエンコーダデコーダ(SSED)と呼ばれる、新しい世代ネットワークベースのアプローチを提案する。
まず,新規な唾液マップデコーダを用いて,対象話者識別システムの決定に対する音声サンプルの重要性を学習する。
第2に,話者を音源から遠ざける角度損失関数を提案する。
論文 参考訳(メタデータ) (2022-10-30T08:54:02Z) - In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - Improved Relation Networks for End-to-End Speaker Verification and
Identification [0.0]
話者識別システムは、少数のサンプルが与えられた一連の登録話者の中から話者を識別する。
話者検証と少数ショット話者識別のための改良された関係ネットワークを提案する。
話者検証におけるプロトタイプネットワークの利用に触発されて、トレーニングセットに存在するすべての話者のうち、現在のエピソードのサンプルを分類するようにモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-31T17:44:04Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Personalized Keyphrase Detection using Speaker and Environment
Information [24.766475943042202]
単語からなるフレーズを大きな語彙から正確に検出するために、簡単にカスタマイズできるストリーミングキーフレーズ検出システムを紹介します。
本システムは,エンドツーエンドで訓練された自動音声認識(ASR)モデルと,テキスト非依存話者検証モデルを用いて実装される。
論文 参考訳(メタデータ) (2021-04-28T18:50:19Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis
Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。
マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。
提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-16T15:47:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。