論文の概要: The SpeakIn System Description for CNSRC2022
- arxiv url: http://arxiv.org/abs/2209.10846v1
- Date: Thu, 22 Sep 2022 08:17:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 14:27:41.043418
- Title: The SpeakIn System Description for CNSRC2022
- Title(参考訳): CNSRC2022のSpeakinシステム記述
- Authors: Yu Zheng, Yihao Chen, Jinghan Peng, Yajun Zhang, Min Liu, Minqiang Xu
- Abstract要約: 本稿では,CN-Celeb Speaker Recognition Challenge 2022(CNSRC 2022)の課題に対する話者検証システムについて述べる。
この課題には、話者検証(SV)と話者検索(SR)の2つのタスクが含まれる。
- 参考スコア(独自算出の注目度): 14.173172568687413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report describes our speaker verification systems for the tasks of the
CN-Celeb Speaker Recognition Challenge 2022 (CNSRC 2022). This challenge
includes two tasks, namely speaker verification(SV) and speaker retrieval(SR).
The SV task involves two tracks: fixed track and open track. In the fixed
track, we only used CN-Celeb.T as the training set. For the open track of the
SV task and SR task, we added our open-source audio data. The ResNet-based,
RepVGG-based, and TDNN-based architectures were developed for this challenge.
Global statistic pooling structure and MQMHA pooling structure were used to
aggregate the frame-level features across time to obtain utterance-level
representation. We adopted AM-Softmax and AAM-Softmax combined with the
Sub-Center method to classify the resulting embeddings. We also used the
Large-Margin Fine-Tuning strategy to further improve the model performance. In
the backend, Sub-Mean and AS-Norm were used. In the SV task fixed track, our
system was a fusion of five models, and two models were fused in the SV task
open track. And we used a single system in the SR task. Our approach leads to
superior performance and comes the 1st place in the open track of the SV task,
the 2nd place in the fixed track of the SV task, and the 3rd place in the SR
task.
- Abstract(参考訳): 本稿では,CN-Celeb Speaker Recognition Challenge 2022(CNSRC 2022)の課題に対する話者検証システムについて述べる。
この課題には、話者検証(SV)と話者検索(SR)という2つのタスクが含まれる。
SVタスクは固定トラックとオープントラックの2つのトラックを含む。
固定軌道では、トレーニングセットとしてCN-Celeb.Tのみを使用しました。
SVタスクとSRタスクのオープントラックのために、私たちはオープンソースのオーディオデータを追加しました。
ResNetベース、RepVGGベース、TDNNベースのアーキテクチャがこの課題のために開発された。
グローバル統計プーリング構造とMQMHAプーリング構造を用いて、時間をかけてフレームレベルの特徴を集約し、発話レベルの表現を得た。
我々は,AM-Softmax と AAM-Softmax と Sub-Center 法を併用して埋め込みの分類を行った。
また,大マージンファインチューニング戦略を用いてモデル性能をさらに向上した。
バックエンドではSub-MeanとAS-Normが使用された。
SVタスク固定軌道では,本システムは5つのモデルの融合であり,SVタスクオープントラックでは2つのモデルが融合された。
そして、SRタスクで1つのシステムを使用しました。
私たちのアプローチは優れたパフォーマンスをもたらし、svタスクのオープントラックでは第1位、svタスクの固定トラックでは第2位、srタスクでは第3位となる。
関連論文リスト
- UniTable: Towards a Unified Framework for Table Structure Recognition
via Self-Supervised Pretraining [25.04573593082671]
テーブル構造認識(TSR)のトレーニングパラダイムとトレーニング目標を一体化するトレーニングフレームワークUniTableを提案する。
本フレームワークは、テーブル構造、セル内容、セル境界ボックス(bbox)を抽出する3つのTSRタスクの学習目標を、タスク非依存の訓練目標である言語モデリングに統一する。
論文 参考訳(メタデータ) (2024-03-07T15:44:50Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - A Study on the Integration of Pipeline and E2E SLU systems for Spoken
Semantic Parsing toward STOP Quality Challenge [33.89616011003973]
本稿では,音声言語理解グランドチャレンジにおける品質トラック(トラック1)のための音声意味解析システムについて述べる。
Whisperのような強自動音声認識(ASR)モデルとBARTのような事前訓練言語モデル(LM)は、我々のSLUフレームワーク内で利用され、性能が向上する。
また,各モデルの出力レベルの組み合わせについて,精度80.8の精度で検討し,第1位を獲得した。
論文 参考訳(メタデータ) (2023-05-02T17:25:19Z) - The SpeakIn Speaker Verification System for Far-Field Speaker
Verification Challenge 2022 [15.453882034529913]
本稿では,Far-Field Speaker Verification Challenge 2022(FFSVC2022)に提出された話者検証システムについて述べる。
ResNetベースのアーキテクチャとRepVGGベースのアーキテクチャは、この挑戦のために開発された。
このアプローチは優れたパフォーマンスをもたらし、両方の課題において第1位にランクインします。
論文 参考訳(メタデータ) (2022-09-23T14:51:55Z) - Unifying Architectures, Tasks, and Modalities Through a Simple
Sequence-to-Sequence Learning Framework [83.82026345508334]
モーダル性(クロスモダリティ、ビジョン、言語など)とタスク(画像生成、視覚接地、画像キャプション、画像分類、テキスト生成など)を統一する統合マルチモーダル事前訓練モデルOFAを提案する。
OFAは、イメージキャプション(COCO test CIDEr: 149.6)、テキスト・ツー・イメージ生成(COCO test FID: 10.5)、VQA(test-std encoder acc.: 80.02)、SNLI-VE(test acc.: 90)など、一連のマルチモーダルタスクにおける新しい最先端処理を実現している。
論文 参考訳(メタデータ) (2022-02-07T10:38:21Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - Anchor-Free Person Search [127.88668724345195]
パーソンサーチ(person search)は、クエリーの人物を同時にローカライズし、特定することを目的としている。
既存の作品の多くはfaster-rcnnのような2段検出器を採用しており、精度は高いが計算オーバーヘッドは高い。
この課題に効率的に取り組む最初のアンカーフリーフレームワークであるFeature-Aligned Person Search Network(AlignPS)を紹介します。
論文 参考訳(メタデータ) (2021-03-22T07:04:29Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z) - Multi-Task Learning for Interpretable Weakly Labelled Sound Event
Detection [34.99472489405047]
本稿では,Wakly Labelled Audioデータから学習するマルチタスク学習フレームワークを提案する。
選択した補助タスクは内部のT-F表現を消音し、ノイズの多い記録下でのSED性能を向上させる。
提案した全フレームワークは、すべてのSNRで既存のベンチマークモデルを上回っている。
論文 参考訳(メタデータ) (2020-08-17T04:46:25Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - Conditional Channel Gated Networks for Task-Aware Continual Learning [44.894710899300435]
畳み込みニューラルネットワークは、一連の学習問題に最適化された場合、破滅的な忘れを経験する。
本稿では,この問題に条件付き計算で対処する新しい枠組みを提案する。
提案手法を4つの連続学習データセットで検証する。
論文 参考訳(メタデータ) (2020-03-31T19:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。