論文の概要: The JHU submission to VoxSRC-21: Track 3
- arxiv url: http://arxiv.org/abs/2109.13425v1
- Date: Tue, 28 Sep 2021 01:30:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 14:32:34.091765
- Title: The JHU submission to VoxSRC-21: Track 3
- Title(参考訳): JHUがVoxSRC-21に申請:トラック3
- Authors: Jejin Cho, Jesus Villalba, Najim Dehak
- Abstract要約: 本報告では、Voxceleb Speaker Recognition Challenge 2021 Track 3に提出されたジョンズ・ホプキンス大学話者認識システムについて述べる。
私たちの全体的なトレーニングプロセスは、昨年のVoxSRC 2020チャレンジで提案されたものと似ています。
これは、Voxceleb1 test o、VoxSRC-21 Validation、テストトライアルにおいて、EER(%)の1.89、6.50、および6.89をそれぞれ示す、最も優れた提案モデルである。
- 参考スコア(独自算出の注目度): 31.804401484416452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report describes Johns Hopkins University speaker recognition
system submitted to Voxceleb Speaker Recognition Challenge 2021 Track 3:
Self-supervised speaker verification (closed). Our overall training process is
similar to the proposed one from the first place team in the last year's
VoxSRC2020 challenge. The main difference is a recently proposed
non-contrastive self-supervised method in computer vision (CV), distillation
with no labels (DINO), is used to train our initial model, which outperformed
the last year's contrastive learning based on momentum contrast (MoCo). Also,
this requires only a few iterations in the iterative clustering stage, where
pseudo labels for supervised embedding learning are updated based on the
clusters of the embeddings generated from a model that is continually
fine-tuned over iterations. In the final stage, Res2Net50 is trained on the
final pseudo labels from the iterative clustering stage. This is our best
submitted model to the challenge, showing 1.89, 6.50, and 6.89 in EER(%) in
voxceleb1 test o, VoxSRC-21 validation, and test trials, respectively.
- Abstract(参考訳): この技術報告では、Voxceleb Speaker Recognition Challenge 2021 Track 3: Self-supervised speaker verification (closed)に提出されたジョンズ・ホプキンス大学話者認識システムについて述べる。
私たちのトレーニングプロセスは、昨年のvoxsrc2020チャレンジの1位チームから提案されたものと同じです。
主な違いは、最近提案されたコンピュータビジョン(CV)における非コントラスト自己監督法、ラベルのない蒸留法(DINO)を用いて、我々の初期モデルを訓練し、運動量コントラスト(MoCo)に基づく昨年のコントラスト学習より優れていたことである。
また、反復クラスタリングの段階では、反復的に微調整されたモデルから生成された埋め込みのクラスタに基づいて、教師付き埋め込み学習のための擬似ラベルが更新される。
最終段階では、Res2Net50は反復クラスタリングステージから最後の擬似ラベルでトレーニングされる。
これは、Voxceleb1 test o、VoxSRC-21 Validation、テストトライアルにおいて、EER(%)の1.89、6.50、および6.89をそれぞれ示す最も優れた提案モデルである。
関連論文リスト
- 1st Place Solution for ECCV 2022 OOD-CV Challenge Image Classification
Track [64.49153847504141]
OOD-CVチャレンジは配布外一般化タスクである。
この課題では、私たちのコアソリューションは、ノイズラベル学習が強いテスト時間ドメイン適応法である、と要約することができます。
テスト時間拡張戦略とモデルアンサンブル戦略を統合することで、OOD-CVチャレンジの画像分類リーダーボードに第一位にランクインする。
論文 参考訳(メタデータ) (2023-01-12T03:44:30Z) - The SpeakIn Speaker Verification System for Far-Field Speaker
Verification Challenge 2022 [15.453882034529913]
本稿では,Far-Field Speaker Verification Challenge 2022(FFSVC2022)に提出された話者検証システムについて述べる。
ResNetベースのアーキテクチャとRepVGGベースのアーキテクチャは、この挑戦のために開発された。
このアプローチは優れたパフォーマンスをもたらし、両方の課題において第1位にランクインします。
論文 参考訳(メタデータ) (2022-09-23T14:51:55Z) - The ReturnZero System for VoxCeleb Speaker Recognition Challenge 2022 [0.0]
RTZR VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22) の上位候補について述べる。
最上位のシステムは7つのモデルの融合であり、3種類のモデルアーキテクチャを含んでいる。
最後の提出はVoxSRC22テストセットで0.165 DCFと2.912% EERを達成した。
論文 参考訳(メタデータ) (2022-09-21T06:54:24Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Raw waveform speaker verification for supervised and self-supervised
learning [30.08242210230669]
本稿では,話者検証に有効な手法を取り入れた新しい生波形話者検証モデルを提案する。
最も優れた構成の下では、このモデルは、最先端のモデルと競合する0.89%のエラー率を示す。
また、自己教師型学習フレームワークを用いて、提案モデルについて検討し、この研究シリーズにおける最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-16T09:28:03Z) - The Phonexia VoxCeleb Speaker Recognition Challenge 2021 System
Description [1.3687617973585977]
教師なし話者検証トラックにおけるVoxCeleb Speaker Recognition Challenge 2021(VoxSRC-21)のPhonexia提案について述べる。
モーメントコントラスト学習を用いて埋め込み抽出器をブートストラップし,入力増強を唯一の監督源とした。
5種類の埋め込み抽出器のzt正規化コサインスコアを平均化してスコア融合を行った。
論文 参考訳(メタデータ) (2021-09-05T12:10:26Z) - Two-Stream Consensus Network: Submission to HACS Challenge 2021
Weakly-Supervised Learning Track [78.64815984927425]
弱い監督による時間的行動ローカライゼーションの目標は、ビデオの興味ある動作を時間的に特定し、分類することである。
この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。
この課題では,本手法が今後の学術研究のベースラインとなることを期待して,第2位にランクインした。
論文 参考訳(メタデータ) (2021-06-21T03:36:36Z) - HuBERT: Self-Supervised Speech Representation Learning by Masked
Prediction of Hidden Units [81.53783563025084]
本稿では、BERTのような予測損失に対して、アライメントされたターゲットラベルを提供するオフラインクラスタリングステップを提案する。
提案手法の重要な要素は,マスク領域にのみ予測損失を適用することである。
HuBERTは、より困難なdev-otherおよびtest-other評価サブセットに対して、最大19%と13%の相対的なWER削減を示す。
論文 参考訳(メタデータ) (2021-06-14T14:14:28Z) - Phonemer at WNUT-2020 Task 2: Sequence Classification Using COVID
Twitter BERT and Bagging Ensemble Technique based on Plurality Voting [0.0]
新型コロナウイルス(COVID-19)に関連する英語のつぶやきを自動的に識別するシステムを開発した。
最終アプローチでは0.9037のF1スコアを達成し,F1スコアを評価基準として総合6位にランク付けした。
論文 参考訳(メタデータ) (2020-10-01T10:54:54Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。