論文の概要: The ReturnZero System for VoxCeleb Speaker Recognition Challenge 2022
- arxiv url: http://arxiv.org/abs/2209.10147v1
- Date: Wed, 21 Sep 2022 06:54:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 15:51:33.037105
- Title: The ReturnZero System for VoxCeleb Speaker Recognition Challenge 2022
- Title(参考訳): VoxCeleb Speaker Recognition Challenge 2022におけるReturnZeroシステム
- Authors: Sangwon Suh, Sunjong Park
- Abstract要約: RTZR VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22) の上位候補について述べる。
最上位のシステムは7つのモデルの融合であり、3種類のモデルアーキテクチャを含んでいる。
最後の提出はVoxSRC22テストセットで0.165 DCFと2.912% EERを達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we describe the top-scoring submissions for team RTZR VoxCeleb
Speaker Recognition Challenge 2022 (VoxSRC-22) in the closed dataset, speaker
verification Track 1. The top performed system is a fusion of 7 models, which
contains 3 different types of model architectures. We focus on training models
to learn extra-temporal information. Therefore, all models were trained with
4-6 second frames for each utterance. Also, we apply the Large Margin
Fine-tuning strategy which has shown good performance on the previous
challenges for some of our fusion models. While the evaluation process, we
apply the scoring methods with adaptive symmetric normalization (AS-Norm) and
matrix score average (MSA). Finally, we mix up models with logistic regression
to fuse all the trained models. The final submission achieves 0.165 DCF and
2.912% EER on the VoxSRC22 test set.
- Abstract(参考訳): 本稿では, RTZR VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22) において, 話者検証トラック1におけるトップスコア入力について述べる。
最上位のシステムは7つのモデルの融合であり、3種類のモデルアーキテクチャを含んでいる。
時間外情報を学ぶためのトレーニングモデルに注力します。
したがって、全てのモデルは発話毎に4-6秒フレームで訓練された。
また,従来の核融合モデルの課題に対して優れた性能を示す大規模マージン微調整戦略を適用した。
評価過程において,適応対称正規化(AS-Norm)と行列スコア平均(MSA)を用いたスコアリング手法を適用した。
最後に、モデルとロジスティック回帰を混ぜ合わせて、すべてのトレーニングされたモデルを融合させます。
最後の提出はVoxSRC22テストセットで0.165 DCFと2.912% EERを達成した。
関連論文リスト
- EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - The SpeakIn Speaker Verification System for Far-Field Speaker
Verification Challenge 2022 [15.453882034529913]
本稿では,Far-Field Speaker Verification Challenge 2022(FFSVC2022)に提出された話者検証システムについて述べる。
ResNetベースのアーキテクチャとRepVGGベースのアーキテクチャは、この挑戦のために開発された。
このアプローチは優れたパフォーマンスをもたらし、両方の課題において第1位にランクインします。
論文 参考訳(メタデータ) (2022-09-23T14:51:55Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - RoBLEURT Submission for the WMT2021 Metrics Task [72.26898579202076]
本稿では,共有メトリクスタスクであるRoBLEURTについて紹介する。
我々のモデルは10対の英語言語対のうち8対でWMT 2020の人間のアノテーションと最先端の相関に達する。
論文 参考訳(メタデータ) (2022-04-28T08:49:40Z) - The RoyalFlush System of Speech Recognition for M2MeT Challenge [5.863625637354342]
本稿では,M2MeTチャレンジにおけるマルチスピーカ自動音声認識(ASR)の追跡のためのRoyalFlushシステムについて述べる。
大規模シミュレーションデータを用いたシリアライズアウトプットトレーニング(SOT)に基づくマルチスピーカASRシステムを採用した。
我々のシステムでは、検証セットでは12.22%の絶対文字誤り率(CER)が、テストセットでは12.11%が削減された。
論文 参考訳(メタデータ) (2022-02-03T14:38:26Z) - Challenges in Procedural Multimodal Machine Comprehension:A Novel Way To
Benchmark [14.50261153230204]
M3C(Multimodal Machine Reading)に注目し、与えられた文節(または文脈)に基づいてモデルが質問に答えることを期待する。
大規模深層モデルの問合せ生成過程と暗記能力から生じる3つの臨界バイアスを同定する。
3つの制御ノブを通してこれらのバイアスに対処するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2021-10-22T16:33:57Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - A Coarse to Fine Question Answering System based on Reinforcement
Learning [48.80863342506432]
本システムは,多段階質問応答を実現するために,アクタ批判に基づく深層強化学習モデルを用いて設計されている。
我々は、WIKEREADING、WIKIREADING LONG、CNN、SQuADの4つのQAデータセットでモデルをテストし、1.3$%$-1.7$%の精度向上と1.5x-3.4xのトレーニングスピードアップを実証した。
論文 参考訳(メタデータ) (2021-06-01T06:41:48Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - ERNIE at SemEval-2020 Task 10: Learning Word Emphasis Selection by
Pre-trained Language Model [18.41476971318978]
本稿では,SemEval-2020 Task 10: Emphasis Selection for Written Text in Visual Mediaにおいて,ERNIE Teamによって設計されたシステムについて述べる。
教師なし事前学習モデルを活用し、これらのモデルをタスクで微調整します。
我々の最良のモデルは0.823の最高スコアを達成し、あらゆる種類の指標で第1位となる。
論文 参考訳(メタデータ) (2020-09-08T12:51:22Z) - Gestalt: a Stacking Ensemble for SQuAD2.0 [0.0]
本稿では,文脈文中の質問に対する正しい回答を見つけ出し,提示する深層学習システムを提案する。
我々のゴールは、各アンサンブルで最高のモデルを上回る異種SQuAD2.0モデルのアンサンブルを学習することである。
論文 参考訳(メタデータ) (2020-04-02T08:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。