論文の概要: The VoxCeleb Speaker Recognition Challenge: A Retrospective
- arxiv url: http://arxiv.org/abs/2408.14886v1
- Date: Tue, 27 Aug 2024 08:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 14:23:37.096658
- Title: The VoxCeleb Speaker Recognition Challenge: A Retrospective
- Title(参考訳): VoxCelebの話者認識チャレンジ:振り返って
- Authors: Jaesung Huh, Joon Son Chung, Arsha Nagrani, Andrew Brown, Jee-weon Jung, Daniel Garcia-Romero, Andrew Zisserman,
- Abstract要約: VoxCeleb Speaker Recognition Challenges (VoxSRC)は、2019年から2023年にかけて毎年開催される一連の課題とワークショップである。
課題は主に、様々な環境下で話者認識とダイアリゼーションのタスクを評価した。
私たちは、これらの課題について、彼らが何を探求したのか、課題参加者によって開発された方法、そしてそれらがどのように進化したのかをレビューします。
- 参考スコア(独自算出の注目度): 75.40776645175585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The VoxCeleb Speaker Recognition Challenges (VoxSRC) were a series of challenges and workshops that ran annually from 2019 to 2023. The challenges primarily evaluated the tasks of speaker recognition and diarisation under various settings including: closed and open training data; as well as supervised, self-supervised, and semi-supervised training for domain adaptation. The challenges also provided publicly available training and evaluation datasets for each task and setting, with new test sets released each year. In this paper, we provide a review of these challenges that covers: what they explored; the methods developed by the challenge participants and how these evolved; and also the current state of the field for speaker verification and diarisation. We chart the progress in performance over the five installments of the challenge on a common evaluation dataset and provide a detailed analysis of how each year's special focus affected participants' performance. This paper is aimed both at researchers who want an overview of the speaker recognition and diarisation field, and also at challenge organisers who want to benefit from the successes and avoid the mistakes of the VoxSRC challenges. We end with a discussion of the current strengths of the field and open challenges. Project page : https://mm.kaist.ac.kr/datasets/voxceleb/voxsrc/workshop.html
- Abstract(参考訳): VoxCeleb Speaker Recognition Challenges (VoxSRC)は、2019年から2023年にかけて毎年開催される一連の課題とワークショップである。
課題は主に、クローズドでオープンなトレーニングデータや、ドメイン適応のための教師付き、自己教師付き、半教師付きトレーニングなど、さまざまな設定下で話者認識とダイアリゼーションのタスクを評価した。
課題はまた、各タスクと設定のトレーニングと評価データセットを公開し、毎年新しいテストセットがリリースされている。
本稿では,これらの課題について概説する。調査内容,課題参加者によって開発された手法,その発展状況,および話者検証とダイアリゼーションの分野の現状について述べる。
我々は、共通の評価データセットに課題の5つのインストールに関するパフォーマンスの進捗をチャート化し、毎年の特別焦点が参加者のパフォーマンスにどのように影響するかを詳細に分析する。
本論文は,話者認識・ダイアリゼーション分野の概観を求める研究者と,VoxSRCの課題の失敗を回避し,成功の恩恵を享受したい課題オーガナイザの両方を対象としている。
最終的に、この分野の現在の強みとオープンな課題について議論します。
プロジェクトページ:https://mm.kaist.ac.kr/datasets/voxceleb/voxsrc/workshop.html
関連論文リスト
- Overview of AI-Debater 2023: The Challenges of Argument Generation Tasks [62.443665295250035]
第2023回中国影響コンピューティング会議(CCAC 2023)におけるAI-Debater 2023チャレンジの結果を提示する。
合計で32のチームがチャレンジに登録し、そこから11の応募をもらいました。
論文 参考訳(メタデータ) (2024-07-20T10:13:54Z) - Text-dependent Speaker Verification (TdSV) Challenge 2024: Challenge Evaluation Plan [0.0]
この課題は、テキスト依存型話者検証のための新しいアプローチの分析と探索に焦点を当てている。
この課題の第一の目的は、参加者が単一で競争力のあるシステムを開発する動機となることである。
論文 参考訳(メタデータ) (2024-04-20T17:26:59Z) - NICE: CVPR 2023 Challenge on Zero-shot Image Captioning [149.28330263581012]
NICEプロジェクトは、堅牢な画像キャプションモデルを開発するためにコンピュータビジョンコミュニティに挑戦するために設計されている。
レポートには、新たに提案されたNICEデータセット、評価方法、課題結果、トップレベルのエントリの技術的な詳細などが含まれている。
論文 参考訳(メタデータ) (2023-09-05T05:32:19Z) - VoxSRC 2022: The Fourth VoxCeleb Speaker Recognition Challenge [95.6159736804855]
VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22)は、InterSPEECH 2022と共同で開催された。
この課題の目的は、最先端の話者認識システムが「野生」で得られた音声から話者を識別し、分類し、認識できるかどうかを評価することである。
論文 参考訳(メタデータ) (2023-02-20T19:27:14Z) - Interspeech 2021 Deep Noise Suppression Challenge [41.68545171728067]
DNSチャレンジは、ノイズ抑圧の領域におけるイノベーションを奨励し、知覚音声の品質を向上するように設計されている。
広帯域シナリオのためのトレーニングとテストデータセットをオープンソース化した。
InterSPEECH 2021で組織された課題のこのバージョンでは、トレーニングとテストの両方のデータセットを拡張して、完全なバンドシナリオに対応しています。
論文 参考訳(メタデータ) (2021-01-06T07:46:25Z) - VoxSRC 2020: The Second VoxCeleb Speaker Recognition Challenge [99.82500204110015]
第2回「VoxCeleb Speaker Recognition Challenge」をInterspeech 2020と共に開催しました。
この課題の目的は、現在のスピーカー認識技術が、制約のないデータまたは野生のデータでスピーカーをダイアライズして認識できるかどうかを評価することでした。
本稿では,その課題を概説し,ベースライン,使用方法,結果について述べる。
論文 参考訳(メタデータ) (2020-12-12T17:20:57Z) - Analysing Affective Behavior in the First ABAW 2020 Competition [49.90617840789334]
ABAW(Affective Behavior Analysis in-the-Wild) 2020コンペティションは、3つの主要な行動タスクの自動分析を目的とした最初のコンペティションである。
アルゼンチンのブエノスアイレスで2020年5月に開催されたIEEE Face and Gesture Recognitionと共同で開催されるこのコンペティションについて説明する。
評価指標を概説し,ベースラインシステムとトップ3の実施するチームの方法論をチャレンジ毎に提示し,その結果を最終的に提示する。
論文 参考訳(メタデータ) (2020-01-30T15:41:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。