論文の概要: VoxSRC 2022: The Fourth VoxCeleb Speaker Recognition Challenge
- arxiv url: http://arxiv.org/abs/2302.10248v1
- Date: Mon, 20 Feb 2023 19:27:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-22 17:18:13.470285
- Title: VoxSRC 2022: The Fourth VoxCeleb Speaker Recognition Challenge
- Title(参考訳): VoxSRC 2022: 第4回VoxCeleb話者認識チャレンジ
- Authors: Jaesung Huh, Andrew Brown, Jee-weon Jung, Joon Son Chung, Arsha
Nagrani, Daniel Garcia-Romero, Andrew Zisserman
- Abstract要約: VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22)は、InterSPEECH 2022と共同で開催された。
この課題の目的は、最先端の話者認識システムが「野生」で得られた音声から話者を識別し、分類し、認識できるかどうかを評価することである。
- 参考スコア(独自算出の注目度): 95.6159736804855
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper summarises the findings from the VoxCeleb Speaker Recognition
Challenge 2022 (VoxSRC-22), which was held in conjunction with INTERSPEECH
2022. The goal of this challenge was to evaluate how well state-of-the-art
speaker recognition systems can diarise and recognise speakers from speech
obtained "in the wild". The challenge consisted of: (i) the provision of
publicly available speaker recognition and diarisation data from YouTube videos
together with ground truth annotation and standardised evaluation software; and
(ii) a public challenge and hybrid workshop held at INTERSPEECH 2022. We
describe the four tracks of our challenge along with the baselines, methods,
and results. We conclude with a discussion on the new domain-transfer focus of
VoxSRC-22, and on the progression of the challenge from the previous three
editions.
- Abstract(参考訳): 本稿では,InterSPEECH 2022とともに開催されたVoxCeleb Speaker Recognition Challenge 2022(VoxSRC-22)の成果を要約する。
この課題の目的は、最先端の話者認識システムがいかに「野放し」で得られた音声から話者を識別し認識できるかを評価することである。
挑戦は以下の通りである。
(i)youtubeビデオからの公に入手可能な話者認識及びダイアリゼーションデータの提供及び地上真実の注釈及び標準化評価ソフトウェア
(II)InterSPEECH 2022で開かれた公的なチャレンジとハイブリッドワークショップ。
我々は、ベースライン、メソッド、結果とともに、課題の4つのトラックについて説明する。
我々は、VoxSRC-22の新しいドメイン・トランスファーの焦点と、以前の3版からの挑戦の進行について議論する。
関連論文リスト
- Speak & Improve Challenge 2025: Tasks and Baseline Systems [28.877872578497854]
Speak & Improve Challenge 2025: Spoken Language Assessment and Feedback"は、ISCA SLaTE 2025ワークショップに関連する課題である。
この課題の目標は、基礎技術と言語学習の両方のフィードバックに関連するタスクを用いて、音声言語アセスメントとフィードバックの研究を進めることである。
この課題には、自動音声認識(ASR)、音声言語アセスメント(SLA)、音声文法誤り訂正(SGEC)、音声文法誤り訂正フィードバック(SGECF)の4つの共通タスクがある。
論文 参考訳(メタデータ) (2024-12-16T17:05:18Z) - AIM 2024 Challenge on Video Super-Resolution Quality Assessment: Methods and Results [76.64868221556145]
本稿では,AIM(Advanceds in Image Manipulation)ワークショップの一環として,ビデオ・スーパーリゾリューション(SR)品質アセスメント(QA)チャレンジについて紹介する。
この課題の課題は、現代の画像とビデオ-SRアルゴリズムを用いて、2xと4xのアップスケールされたビデオのための客観的QA手法を開発することである。
SR QAの目標は、従来のQA手法の適用範囲が限られているという難題が証明された、最先端のSR QAを前進させることであった。
論文 参考訳(メタデータ) (2024-10-05T16:42:23Z) - The VoxCeleb Speaker Recognition Challenge: A Retrospective [75.40776645175585]
VoxCeleb Speaker Recognition Challenges (VoxSRC)は、2019年から2023年にかけて毎年開催される一連の課題とワークショップである。
課題は主に、様々な環境下で話者認識とダイアリゼーションのタスクを評価した。
私たちは、これらの課題について、彼らが何を探求したのか、課題参加者によって開発された方法、そしてそれらがどのように進化したのかをレビューします。
論文 参考訳(メタデータ) (2024-08-27T08:57:31Z) - ICAGC 2024: Inspirational and Convincing Audio Generation Challenge 2024 [32.96984318966757]
TheICAGC 2024 Challengeは、合成音声の説得性と受容性を高めることを目的としている。
本論文では,19チームが参加登録を行い,競技結果と競技結果について述べる。
論文 参考訳(メタデータ) (2024-07-01T13:15:16Z) - The Second DISPLACE Challenge : DIarization of SPeaker and LAnguage in Conversational Environments [28.460119283649913]
データセットには158時間の音声が含まれており、教師なしと教師なしの両方の単一チャネルの遠距離記録で構成されている。
インドの5言語で実施されたASRトラックでは,12時間の近接場単チャンネル記録が提供された。
我々は,この第2版における課題の進展を強調するために,私たちのベースラインモデルとdisPLACE-2023の評価データに基づくチームのパフォーマンスを比較した。
論文 参考訳(メタデータ) (2024-06-13T17:32:32Z) - VoxSRC 2020: The Second VoxCeleb Speaker Recognition Challenge [99.82500204110015]
第2回「VoxCeleb Speaker Recognition Challenge」をInterspeech 2020と共に開催しました。
この課題の目的は、現在のスピーカー認識技術が、制約のないデータまたは野生のデータでスピーカーをダイアライズして認識できるかどうかを評価することでした。
本稿では,その課題を概説し,ベースライン,使用方法,結果について述べる。
論文 参考訳(メタデータ) (2020-12-12T17:20:57Z) - The End-of-End-to-End: A Video Understanding Pentathlon Challenge (2020) [186.7816349401443]
我々は、IEEE Conference on Computer Vision and Pattern Recognition (CVPR) 2020と共同で開かれたオープンコンペティションである、新しいビデオ理解ペンタトロンチャレンジを紹介する。
課題は,テキスト・ビデオ検索の新しい手法を探求し,評価することであった。
論文 参考訳(メタデータ) (2020-08-03T09:55:26Z) - CHiME-6 Challenge:Tackling Multispeaker Speech Recognition for
Unsegmented Recordings [87.37967358673252]
第6回CiME音声分離認識チャレンジ(CHiME-6)の開催
この課題は、従来のCHiME-5課題を再考し、遠隔マルチマイクロホン音声のダイアリゼーションと認識の問題をさらに検討する。
本稿では, セグメント化多話者音声認識と非セグメント化多話者音声認識におけるCHiME-6チャレンジのベースライン記述について述べる。
論文 参考訳(メタデータ) (2020-04-20T12:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。