論文の概要: The 2021 NIST Speaker Recognition Evaluation
- arxiv url: http://arxiv.org/abs/2204.10242v1
- Date: Thu, 21 Apr 2022 16:18:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-22 15:21:43.976476
- Title: The 2021 NIST Speaker Recognition Evaluation
- Title(参考訳): 2021年nist話者認識評価
- Authors: Seyed Omid Sadjadi and Craig Greenberg and Elliot Singer and Lisa
Mason and Douglas Reynolds
- Abstract要約: 2021話者認識評価 (2021 Speaker Recognition Evaluation, SRE21) は、1996年からアメリカ合衆国国立標準技術研究所 (NIST) が実施している評価シリーズの最新サイクルである。
本稿では,タスク,評価基準,データ,評価プロトコル,結果,システム性能分析などを含むSRE21の概要について述べる。
- 参考スコア(独自算出の注目度): 1.5282767384702267
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The 2021 Speaker Recognition Evaluation (SRE21) was the latest cycle of the
ongoing evaluation series conducted by the U.S. National Institute of Standards
and Technology (NIST) since 1996. It was the second large-scale multimodal
speaker/person recognition evaluation organized by NIST (the first one being
SRE19). Similar to SRE19, it featured two core evaluation tracks, namely audio
and audio-visual, as well as an optional visual track. In addition to offering
fixed and open training conditions, it also introduced new challenges for the
community, thanks to a new multimodal (i.e., audio, video, and selfie images)
and multilingual (i.e., with multilingual speakers) corpus, termed WeCanTalk,
collected outside North America by the Linguistic Data Consortium (LDC). These
challenges included: 1) trials (target and non-target) with enrollment and test
segments originating from different domains (i.e., telephony versus video), and
2) trials (target and non-target) with enrollment and test segments spoken in
different languages (i.e., cross-lingual trials). This paper presents an
overview of SRE21 including the tasks, performance metric, data, evaluation
protocol, results and system performance analyses. A total of 23 organizations
(forming 15 teams) from academia and industry participated in SRE21 and
submitted 158 valid system outputs. Evaluation results indicate: audio-visual
fusion produce substantial gains in performance over audio-only or visual-only
systems; top performing speaker and face recognition systems exhibited
comparable performance under the matched domain conditions present in this
evaluation; and, the use of complex neural network architectures (e.g., ResNet)
along with angular losses with margin, data augmentation, as well as long
duration fine-tuning contributed to notable performance improvements for the
audio-only speaker recognition task.
- Abstract(参考訳): 2021話者認識評価 (2021 Speaker Recognition Evaluation, SRE21) は、1996年からアメリカ合衆国国立標準技術研究所 (NIST) が実施している評価シリーズの最新サイクルである。
NISTによる2番目の大規模マルチモーダル話者・個人認識評価(最初のものはSRE19)である。
sre19と同様に、オーディオとオーディオによるビジュアルの2つのコア評価トラックと、オプションのビジュアルトラックが特徴だった。
固定的でオープンなトレーニング条件の提供に加えて、Linguistic Data Consortium (LDC)によって北米外で収集されたWeCanTalkと呼ばれる新しいマルチモーダル(オーディオ、ビデオ、セルフィー画像)と多言語コーパス(多言語話者付きコーパス)のおかげで、コミュニティに新たな課題も導入した。
これらの課題には
1)異なるドメイン(例えば、テレフォニー対ビデオ)からの登録とテストセグメントを持つ試行(ターゲットおよび非ターゲット)、及び
2) 異なる言語(言語間トライアル)で話される参加とテストセグメントによる試験(ターゲットと非ターゲット)。
本稿では,タスク,評価基準,データ,評価プロトコル,結果とシステム性能分析を含むSRE21の概要について述べる。
学術・産業の23の組織(計15チーム)がSRE21に参加し、158の有効なシステムアウトプットを提出した。
Evaluation results indicate: audio-visual fusion produce substantial gains in performance over audio-only or visual-only systems; top performing speaker and face recognition systems exhibited comparable performance under the matched domain conditions present in this evaluation; and, the use of complex neural network architectures (e.g., ResNet) along with angular losses with margin, data augmentation, as well as long duration fine-tuning contributed to notable performance improvements for the audio-only speaker recognition task.
関連論文リスト
- TTSDS -- Text-to-Speech Distribution Score [9.380879437204277]
最近発表されたText-to-Speech (TTS) システムは、実際の音声に近い音声を生成する。
本稿では,韻律,話者識別,知性といった複数の要因を組み合わせた合成音声の質を評価することを提案する。
2008年から2024年にかけて開発された35のTTSシステムをベンチマークし, 評価値の非重み付き平均値として計算した結果が人体評価と強く相関していることを示した。
論文 参考訳(メタデータ) (2024-07-17T16:30:27Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative
Comprehension [98.69691822391069]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - The 2022 NIST Language Recognition Evaluation [1.3730035576297057]
2022年、米国国立標準技術研究所(NIST)が最新の言語認識評価(LRE)を行った。
従来のLREと同様、LRE22は会話電話音声(CTS)と放送狭帯域音声(BNBS)データに焦点を当てていた。
本稿では,LRE22の概要と評価条件の異なるシステム性能の解析について述べる。
論文 参考訳(メタデータ) (2023-02-28T15:05:33Z) - L2 proficiency assessment using self-supervised speech representations [35.70742768910494]
本研究は,音声認識を必要とせず,自己教師型音声表現に基づく初期分析を大規模習熟度試験に拡張する。
自己教師型wav2vec 2.0システムの性能は、高性能の手作り評価システムとBERTベースのテキストシステムと比較される。
wav2vec 2.0ベースのシステムは応答の性質に敏感であることがわかったが、音声の書き起こしを必要とするシステムと同等の性能を持つように構成することができる。
論文 参考訳(メタデータ) (2022-11-16T11:47:20Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - Conformer-Based Self-Supervised Learning for Non-Speech Audio Tasks [20.316239155843963]
本稿では,音声表現学習手法を提案し,それを下流の音声非音声タスクに適用する。
AudioSetベンチマークでは、平均平均精度(mAP)スコアが0.415に達しています。
論文 参考訳(メタデータ) (2021-10-14T12:32:40Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - ESPnet-ST IWSLT 2021 Offline Speech Translation System [56.83606198051871]
本稿では,ESPnet-STグループによる音声翻訳トラックにおけるIWSLT 2021の提出について述べる。
今年は、データ、アーキテクチャ、オーディオセグメンテーションのトレーニングにさまざまな取り組みを行いました。
私たちの最高のE2Eシステムは、すべてのテクニックをモデルアンサンブルと組み合わせ、31.4BLEUを達成しました。
論文 参考訳(メタデータ) (2021-07-01T17:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。