論文の概要: VoxWatch: An open-set speaker recognition benchmark on VoxCeleb
- arxiv url: http://arxiv.org/abs/2307.00169v1
- Date: Fri, 30 Jun 2023 23:11:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 17:43:01.793504
- Title: VoxWatch: An open-set speaker recognition benchmark on VoxCeleb
- Title(参考訳): VoxWatch:VoxCelebのオープンセット話者認識ベンチマーク
- Authors: Raghuveer Peri and Seyed Omid Sadjadi and Daniel Garcia-Romero
- Abstract要約: オープンセット話者識別(OSI)は、テスト音声サンプルが事前登録された個人(セット内)の話者であるかどうか、またはアウトオブセット話者の話者であるかどうかを決定する。
インセット話者人口が増加するにつれて、アウト・オブ・セットのスコアが大きくなり、誤警報率が増加する。
我々は,VoxCelebデータセットを用いて開発したOSIの最初の公開ベンチマークを示す。
- 参考スコア(独自算出の注目度): 10.84962993456577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite its broad practical applications such as in fraud prevention,
open-set speaker identification (OSI) has received less attention in the
speaker recognition community compared to speaker verification (SV). OSI deals
with determining if a test speech sample belongs to a speaker from a set of
pre-enrolled individuals (in-set) or if it is from an out-of-set speaker. In
addition to the typical challenges associated with speech variability, OSI is
prone to the "false-alarm problem"; as the size of the in-set speaker
population (a.k.a watchlist) grows, the out-of-set scores become larger,
leading to increased false alarm rates. This is in particular challenging for
applications in financial institutions and border security where the watchlist
size is typically of the order of several thousand speakers. Therefore, it is
important to systematically quantify the false-alarm problem, and develop
techniques that alleviate the impact of watchlist size on detection
performance. Prior studies on this problem are sparse, and lack a common
benchmark for systematic evaluations. In this paper, we present the first
public benchmark for OSI, developed using the VoxCeleb dataset. We quantify the
effect of the watchlist size and speech duration on the watchlist-based speaker
detection task using three strong neural network based systems. In contrast to
the findings from prior research, we show that the commonly adopted adaptive
score normalization is not guaranteed to improve the performance for this task.
On the other hand, we show that score calibration and score fusion, two other
commonly used techniques in SV, result in significant improvements in OSI
performance.
- Abstract(参考訳): 詐欺防止などの幅広い実践的応用にもかかわらず、オープンセット話者識別(OSI)は話者認証(SV)と比較して話者認識コミュニティにおいてあまり注目されていない。
osiは、テスト音声サンプルが(セット内)事前登録された個人から話者に属しているかどうか、またはセット外の話者であるかどうかを判断する。
音声の変動にまつわる典型的な課題に加えて、OSIは「偽アラーム問題」に陥りがちであり、インセット話者人口(すなわちウォッチリスト)が大きくなるにつれて、オフ・オブ・セットスコアが大きくなり、誤警報率が増大する。
特に金融機関や国境警備のアプリケーションでは、ウォッチリストのサイズが数千人の話者の順番である場合、これは特に困難である。
したがって、誤警報問題を体系的に定量化し、ウォッチリストサイズが検出性能に与える影響を軽減する技術を開発することが重要である。
この問題に関する先行研究は乏しく、体系的な評価のための共通のベンチマークが欠如している。
本稿では,VoxCelebデータセットを用いて開発したOSIの公開ベンチマークについて述べる。
本研究では,3つの強力なニューラルネットワークシステムを用いて,watchlistに基づく話者検出タスクにおけるwatchlistサイズと音声持続時間の影響を定量化する。
先行研究の結果とは対照的に,一般的に採用されている適応スコア正規化は,このタスクの性能向上を保証していない。
一方,スコアキャリブレーションとスコアフュージョンはSVで広く使われている2つの手法であり,OSIの性能は大幅に向上した。
関連論文リスト
- Speaker Tagging Correction With Non-Autoregressive Language Models [0.0]
非自己回帰言語モデルに基づく話者タグ付け補正システムを提案する。
提案手法は, 単語ダイアリゼーション誤り率 (WDER) を2つのデータセットで減少させる。
論文 参考訳(メタデータ) (2024-08-30T11:02:17Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Meta-Learning Framework for End-to-End Imposter Identification in Unseen
Speaker Recognition [4.143603294943441]
未確認話者認識における不適切な識別のための固定しきい値(EERメトリックを用いた計算)を用いた一般化の問題を示す。
次に、より優れた性能を実現するために、頑健な話者特異的しきい値設定手法を導入する。
提案手法の有効性をVoxCeleb1, VCTK, FFSVC 2022データセットで示し, ベースラインを最大10%上回った。
論文 参考訳(メタデータ) (2023-06-01T17:49:58Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。