論文の概要: The SpeakIn Speaker Verification System for Far-Field Speaker
Verification Challenge 2022
- arxiv url: http://arxiv.org/abs/2209.11625v1
- Date: Fri, 23 Sep 2022 14:51:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-26 17:26:56.497666
- Title: The SpeakIn Speaker Verification System for Far-Field Speaker
Verification Challenge 2022
- Title(参考訳): 遠距離話者検証チャレンジ2022における話者検証システム
- Authors: Yu Zheng, Jinghan Peng, Yihao Chen, Yajun Zhang, Jialong Wang, Min
Liu, Minqiang Xu
- Abstract要約: 本稿では,Far-Field Speaker Verification Challenge 2022(FFSVC2022)に提出された話者検証システムについて述べる。
ResNetベースのアーキテクチャとRepVGGベースのアーキテクチャは、この挑戦のために開発された。
このアプローチは優れたパフォーマンスをもたらし、両方の課題において第1位にランクインします。
- 参考スコア(独自算出の注目度): 15.453882034529913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes speaker verification (SV) systems submitted by the
SpeakIn team to the Task 1 and Task 2 of the Far-Field Speaker Verification
Challenge 2022 (FFSVC2022). SV tasks of the challenge focus on the problem of
fully supervised far-field speaker verification (Task 1) and semi-supervised
far-field speaker verification (Task 2). In Task 1, we used the VoxCeleb and
FFSVC2020 datasets as train datasets. And for Task 2, we only used the VoxCeleb
dataset as train set. The ResNet-based and RepVGG-based architectures were
developed for this challenge. Global statistic pooling structure and MQMHA
pooling structure were used to aggregate the frame-level features across time
to obtain utterance-level representation. We adopted AM-Softmax and AAM-Softmax
to classify the resulting embeddings. We innovatively propose a staged transfer
learning method. In the pre-training stage we reserve the speaker weights, and
there are no positive samples to train them in this stage. Then we fine-tune
these weights with both positive and negative samples in the second stage.
Compared with the traditional transfer learning strategy, this strategy can
better improve the model performance. The Sub-Mean and AS-Norm backend methods
were used to solve the problem of domain mismatch. In the fusion stage, three
models were fused in Task1 and two models were fused in Task2. On the FFSVC2022
leaderboard, the EER of our submission is 3.0049% and the corresponding minDCF
is 0.2938 in Task1. In Task2, EER and minDCF are 6.2060% and 0.5232
respectively. Our approach leads to excellent performance and ranks 1st in both
challenge tasks.
- Abstract(参考訳): 本稿では,SpeakInチームがFar-Field Speaker Verification Challenge 2022(FFSVC2022)のタスク1およびタスク2に提出した話者検証システムについて述べる。
課題のSVタスクは、完全教師付き遠距離話者検証(Task1)と半教師付き遠距離話者検証(Task2)の問題に焦点を当てる。
Task 1では、トレーニングデータセットとしてVoxCelebとFFSVC2020データセットを使用しました。
Task 2では、VoxCelebデータセットのみをトレインセットとして使用しました。
ResNetベースのアーキテクチャとRepVGGベースのアーキテクチャがこの課題のために開発された。
グローバル統計プーリング構造とMQMHAプーリング構造を用いて、時間をかけてフレームレベルの特徴を集約し、発話レベルの表現を得た。
am-softmax と aam-softmax を用いて埋め込みを分類した。
我々は段階的転校学習法を革新的に提案する。
事前学習の段階では、話者重量を予備し、この段階でトレーニングする正のサンプルは存在しない。
次に、これらの重みを第2段階で正と負の両方のサンプルで微調整する。
従来の移動学習戦略と比較すると、この戦略はモデルの性能を改善することができる。
Sub-MeanとAS-Normのバックエンドメソッドはドメインミスマッチの問題を解決するために使われた。
核融合段階では3つのモデルがタスク1で融合され、2つのモデルがタスク2で融合された。
FFSVC2022のリーダーボードでは、EERは3.0049%、対応するminDCFは0.2938である。
Task2 では EER と minDCF はそれぞれ 6.2060% と 0.5232 である。
我々のアプローチは優れたパフォーマンスをもたらし、両方の課題タスクで1位にランクインします。
関連論文リスト
- eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Improving Cross-task Generalization of Unified Table-to-text Models with
Compositional Task Configurations [63.04466647849211]
メソッドは通常、タスク情報をエンコーダのプレフィックスとして単純なデータセット名でエンコードする。
本稿では,エンコーダがタスク間の一般化を改善するためのプロンプトセットであるコンポジションタスク構成を提案する。
これは、モデルがトレーニング中に異なるタスク間で共有知識をより良く学習できるだけでなく、新しい構成を構築することでモデルを制御できることを示している。
論文 参考訳(メタデータ) (2022-12-17T02:20:14Z) - M3ST: Mix at Three Levels for Speech Translation [66.71994367650461]
本稿では,M3ST法を3段階に分けて提案し,拡張学習コーパスの多様性を高める。
ファインチューニングの第1段階では、単語レベル、文レベル、フレームレベルを含む3段階のトレーニングコーパスを混合し、モデル全体を混合データで微調整する。
MuST-C音声翻訳ベンチマークと分析実験により、M3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-07T14:22:00Z) - Toward Efficient Language Model Pretraining and Downstream Adaptation
via Self-Evolution: A Case Study on SuperGLUE [203.65227947509933]
このレポートでは、スーパーGLUEのリーダーボードにJDExplore d-teamのVega v2を提出しました。
SuperGLUEは、広く使われている汎用言語理解評価(GLUE)ベンチマークよりも難易度が高く、8つの難しい言語理解タスクを含んでいる。
論文 参考訳(メタデータ) (2022-12-04T15:36:18Z) - Cross-Modal Adapter for Text-Video Retrieval [91.9575196703281]
我々はパラメータ効率の良い微調整のための新しい$textbfCross-Modal Adapterを提示する。
アダプタベースの手法にインスパイアされ、いくつかのパラメータ化レイヤで事前訓練されたモデルを調整します。
MSR-VTT、MSVD、VATEX、ActivityNet、DiDeMoデータセットで完全に微調整されたメソッドと比較して、優れた、あるいは同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-11-17T16:15:30Z) - The SpeakIn System Description for CNSRC2022 [14.173172568687413]
本稿では,CN-Celeb Speaker Recognition Challenge 2022(CNSRC 2022)の課題に対する話者検証システムについて述べる。
この課題には、話者検証(SV)と話者検索(SR)の2つのタスクが含まれる。
論文 参考訳(メタデータ) (2022-09-22T08:17:47Z) - The ReturnZero System for VoxCeleb Speaker Recognition Challenge 2022 [0.0]
RTZR VoxCeleb Speaker Recognition Challenge 2022 (VoxSRC-22) の上位候補について述べる。
最上位のシステムは7つのモデルの融合であり、3種類のモデルアーキテクチャを含んでいる。
最後の提出はVoxSRC22テストセットで0.165 DCFと2.912% EERを達成した。
論文 参考訳(メタデータ) (2022-09-21T06:54:24Z) - The Royalflush System for VoxCeleb Speaker Recognition Challenge 2022 [4.022057598291766]
VoxCeleb Speaker Recognition Challenge 2022(VoxSRC-22)のRoyalflush申請について述べる。
トラック1では,対称構造を持つ強力なU-Net型話者埋め込み抽出器を開発した。
トラック3では、話者埋め込み抽出器を得るために、ソースドメインの監督とターゲットドメインの自己監督を共同で訓練する。
論文 参考訳(メタデータ) (2022-09-19T13:35:36Z) - Phonemer at WNUT-2020 Task 2: Sequence Classification Using COVID
Twitter BERT and Bagging Ensemble Technique based on Plurality Voting [0.0]
新型コロナウイルス(COVID-19)に関連する英語のつぶやきを自動的に識別するシステムを開発した。
最終アプローチでは0.9037のF1スコアを達成し,F1スコアを評価基準として総合6位にランク付けした。
論文 参考訳(メタデータ) (2020-10-01T10:54:54Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。