論文の概要: Tongji University Undergraduate Team for the VoxCeleb Speaker
Recognition Challenge2020
- arxiv url: http://arxiv.org/abs/2010.10145v1
- Date: Tue, 20 Oct 2020 09:25:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 08:06:03.878082
- Title: Tongji University Undergraduate Team for the VoxCeleb Speaker
Recognition Challenge2020
- Title(参考訳): 東京大学におけるVoxCeleb Speaker Recognition Challenge2020参加報告
- Authors: Shufan Shen, Ran Miao, Yi Wang, Zhihua Wei
- Abstract要約: RSBU-CW モジュールを ResNet34 フレームワークに適用し,ネットワークの認知能力を向上させる。
我々は,モデルの性能向上のために,ResNetの2つの変種であるスコア融合とデータ拡張法を訓練した。
- 参考スコア(独自算出の注目度): 10.836635938778684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we discribe the submission of Tongji University undergraduate
team to the CLOSE track of the VoxCeleb Speaker Recognition Challenge (VoxSRC)
2020 at Interspeech 2020. We applied the RSBU-CW module to the ResNet34
framework to improve the denoising ability of the network and better complete
the speaker verification task in a complex environment.We trained two variants
of ResNet,used score fusion and data-augmentation methods to improve the
performance of the model. Our fusion of two selected systems for the CLOSE
track achieves 0.2973 DCF and 4.9700\% EER on the challenge evaluation set.
- Abstract(参考訳): 本報告では,Tongji Universityの学部生が,Interspeech 2020のVoxCeleb Speaker Recognition Challenge (VoxSRC) 2020のCLOSEトラックに登録した。
RSBU-CW モジュールを ResNet34 フレームワークに適用し,ネットワークのデノーミング能力の向上と,複雑な環境下での話者検証タスクの完了を図った。
CLOSEトラックの2つの選択されたシステムの融合は、チャレンジ評価セットで0.2973 DCFと4.9700\% EERを達成する。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - The GUA-Speech System Description for CNVSRC Challenge 2023 [8.5257557043542]
本研究では,中国連続視覚音声認識チャレンジ(CNVSRC)2023におけるタスク1単一話者視覚音声認識(VSR)固定トラックについて述べる。
我々は、中間接続性時間分類(Inter CTC)残基を用いて、我々のモデルにおけるCTCの条件独立仮定を緩和する。
また、バイトランスフォーマーデコーダを使用して、モデルが過去と未来の両方のコンテキスト情報をキャプチャできるようにする。
論文 参考訳(メタデータ) (2023-12-12T13:35:33Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - THUEE system description for NIST 2020 SRE CTS challenge [19.2916501364633]
本稿では,NIST 2020 Speaker Recognition Evaluation (SRE) のためのTHUEEチームのシステム記述について述べる。
この評価では、ResNet74、ResNet152、RepVGG-B2などのサブシステムが話者埋め込み抽出器として開発された。
論文 参考訳(メタデータ) (2022-10-12T12:01:59Z) - UniCon+: ICTCAS-UCAS Submission to the AVA-ActiveSpeaker Task at
ActivityNet Challenge 2022 [69.67841335302576]
本稿では,アクティベーションネットチャレンジ2022におけるAVAアクティブ話者検出(ASD)課題に対する,我々の勝利ソリューションの簡潔な説明を行う。
基盤となるモデルであるUniCon+は、以前の作業であるUnified Context Network(UniCon)とExtended UniConの上に構築され続けています。
アーキテクチャをシンプルなGRUベースのモジュールで拡張し、繰り返し発生するアイデンティティの情報がシーンを流れるようにします。
論文 参考訳(メタデータ) (2022-06-22T06:11:07Z) - The USTC-Ximalaya system for the ICASSP 2022 multi-channel multi-party
meeting transcription (M2MeT) challenge [43.262531688434215]
ターゲットスピーカ音声活動検出(TS-VAD)における2つの改善点を提案する。
これらの手法は,高話者オーバラップ比,高残響・雑音条件下での実世界会議シナリオにおける多話者会話を処理するように設計されている。
論文 参考訳(メタデータ) (2022-02-10T06:06:48Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - Two-Stream Consensus Network: Submission to HACS Challenge 2021
Weakly-Supervised Learning Track [78.64815984927425]
弱い監督による時間的行動ローカライゼーションの目標は、ビデオの興味ある動作を時間的に特定し、分類することである。
この課題では,2ストリームコンセンサスネットワーク(TSCN)を主要なフレームワークとして採用しています。
この課題では,本手法が今後の学術研究のベースラインとなることを期待して,第2位にランクインした。
論文 参考訳(メタデータ) (2021-06-21T03:36:36Z) - Query Expansion System for the VoxCeleb Speaker Recognition Challenge
2020 [9.908371711364717]
本稿では,VoxCeleb Speaker Recognition Challenge (VoxSRC) 2020への応募について述べる。
1つは、話者検証にクエリ拡張を適用することであり、これは研究のベースラインと比較して大きな進歩を示している。
もう1つは、確率線形判別分析(PLDA)スコアとResNetスコアを組み合わせることである。
論文 参考訳(メタデータ) (2020-11-04T05:24:18Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。