論文の概要: The SpeakIn System Description for CNSRC2022
- arxiv url: http://arxiv.org/abs/2209.10846v1
- Date: Thu, 22 Sep 2022 08:17:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 14:27:41.043418
- Title: The SpeakIn System Description for CNSRC2022
- Title(参考訳): CNSRC2022のSpeakinシステム記述
- Authors: Yu Zheng, Yihao Chen, Jinghan Peng, Yajun Zhang, Min Liu, Minqiang Xu
- Abstract要約: 本稿では,CN-Celeb Speaker Recognition Challenge 2022(CNSRC 2022)の課題に対する話者検証システムについて述べる。
この課題には、話者検証(SV)と話者検索(SR)の2つのタスクが含まれる。
- 参考スコア(独自算出の注目度): 14.173172568687413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report describes our speaker verification systems for the tasks of the
CN-Celeb Speaker Recognition Challenge 2022 (CNSRC 2022). This challenge
includes two tasks, namely speaker verification(SV) and speaker retrieval(SR).
The SV task involves two tracks: fixed track and open track. In the fixed
track, we only used CN-Celeb.T as the training set. For the open track of the
SV task and SR task, we added our open-source audio data. The ResNet-based,
RepVGG-based, and TDNN-based architectures were developed for this challenge.
Global statistic pooling structure and MQMHA pooling structure were used to
aggregate the frame-level features across time to obtain utterance-level
representation. We adopted AM-Softmax and AAM-Softmax combined with the
Sub-Center method to classify the resulting embeddings. We also used the
Large-Margin Fine-Tuning strategy to further improve the model performance. In
the backend, Sub-Mean and AS-Norm were used. In the SV task fixed track, our
system was a fusion of five models, and two models were fused in the SV task
open track. And we used a single system in the SR task. Our approach leads to
superior performance and comes the 1st place in the open track of the SV task,
the 2nd place in the fixed track of the SV task, and the 3rd place in the SR
task.
- Abstract(参考訳): 本稿では,CN-Celeb Speaker Recognition Challenge 2022(CNSRC 2022)の課題に対する話者検証システムについて述べる。
この課題には、話者検証(SV)と話者検索(SR)という2つのタスクが含まれる。
SVタスクは固定トラックとオープントラックの2つのトラックを含む。
固定軌道では、トレーニングセットとしてCN-Celeb.Tのみを使用しました。
SVタスクとSRタスクのオープントラックのために、私たちはオープンソースのオーディオデータを追加しました。
ResNetベース、RepVGGベース、TDNNベースのアーキテクチャがこの課題のために開発された。
グローバル統計プーリング構造とMQMHAプーリング構造を用いて、時間をかけてフレームレベルの特徴を集約し、発話レベルの表現を得た。
我々は,AM-Softmax と AAM-Softmax と Sub-Center 法を併用して埋め込みの分類を行った。
また,大マージンファインチューニング戦略を用いてモデル性能をさらに向上した。
バックエンドではSub-MeanとAS-Normが使用された。
SVタスク固定軌道では,本システムは5つのモデルの融合であり,SVタスクオープントラックでは2つのモデルが融合された。
そして、SRタスクで1つのシステムを使用しました。
私たちのアプローチは優れたパフォーマンスをもたらし、svタスクのオープントラックでは第1位、svタスクの固定トラックでは第2位、srタスクでは第3位となる。
関連論文リスト
- Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 [61.189875635090225]
大規模言語モデル (LLM) は現在,自動音声認識 (ASR) や機械翻訳 (MT) ,さらにはエンドツーエンド音声翻訳 (ST) など,さまざまなタスクを探索中である。
論文 参考訳(メタデータ) (2024-06-24T16:38:17Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - A Study on the Integration of Pipeline and E2E SLU systems for Spoken
Semantic Parsing toward STOP Quality Challenge [33.89616011003973]
本稿では,音声言語理解グランドチャレンジにおける品質トラック(トラック1)のための音声意味解析システムについて述べる。
Whisperのような強自動音声認識(ASR)モデルとBARTのような事前訓練言語モデル(LM)は、我々のSLUフレームワーク内で利用され、性能が向上する。
また,各モデルの出力レベルの組み合わせについて,精度80.8の精度で検討し,第1位を獲得した。
論文 参考訳(メタデータ) (2023-05-02T17:25:19Z) - The SpeakIn Speaker Verification System for Far-Field Speaker
Verification Challenge 2022 [15.453882034529913]
本稿では,Far-Field Speaker Verification Challenge 2022(FFSVC2022)に提出された話者検証システムについて述べる。
ResNetベースのアーキテクチャとRepVGGベースのアーキテクチャは、この挑戦のために開発された。
このアプローチは優れたパフォーマンスをもたらし、両方の課題において第1位にランクインします。
論文 参考訳(メタデータ) (2022-09-23T14:51:55Z) - Anchor-Free Person Search [127.88668724345195]
パーソンサーチ(person search)は、クエリーの人物を同時にローカライズし、特定することを目的としている。
既存の作品の多くはfaster-rcnnのような2段検出器を採用しており、精度は高いが計算オーバーヘッドは高い。
この課題に効率的に取り組む最初のアンカーフリーフレームワークであるFeature-Aligned Person Search Network(AlignPS)を紹介します。
論文 参考訳(メタデータ) (2021-03-22T07:04:29Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z) - Multi-Task Learning for Interpretable Weakly Labelled Sound Event
Detection [34.99472489405047]
本稿では,Wakly Labelled Audioデータから学習するマルチタスク学習フレームワークを提案する。
選択した補助タスクは内部のT-F表現を消音し、ノイズの多い記録下でのSED性能を向上させる。
提案した全フレームワークは、すべてのSNRで既存のベンチマークモデルを上回っている。
論文 参考訳(メタデータ) (2020-08-17T04:46:25Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z) - Yseop at SemEval-2020 Task 5: Cascaded BERT Language Model for
Counterfactual Statement Analysis [0.0]
我々は、分類タスクにBERTベースモデルを使用し、シーケンス識別タスクを処理するために、ハイブリッドBERTマルチ層パーセプトロンシステムを構築した。
本実験により, 構文的・意味的特徴の導入は, 分類タスクにおけるシステム改善にはほとんど寄与しないが, それらの特徴を線形入力として用いて, モデルのシーケンス決定能力を微調整することにより, 2次タスクにおいてBiLSTM-CRFのような他の類似の複雑なシステムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-18T08:19:18Z) - Conditional Channel Gated Networks for Task-Aware Continual Learning [44.894710899300435]
畳み込みニューラルネットワークは、一連の学習問題に最適化された場合、破滅的な忘れを経験する。
本稿では,この問題に条件付き計算で対処する新しい枠組みを提案する。
提案手法を4つの連続学習データセットで検証する。
論文 参考訳(メタデータ) (2020-03-31T19:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。