論文の概要: ShaneRun System Description to VoxCeleb Speaker Recognition Challenge
2020
- arxiv url: http://arxiv.org/abs/2011.01518v1
- Date: Tue, 3 Nov 2020 07:26:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 06:24:07.856568
- Title: ShaneRun System Description to VoxCeleb Speaker Recognition Challenge
2020
- Title(参考訳): シェーンランシステム「VoxCeleb Speaker Recognition Challenge 2020」
- Authors: Shen Chen
- Abstract要約: 我々は、ShaneRunのチームがVoxCeleb Speaker Recognition Challenge (VoxSRC) 2020に提出されたことを述べる。
我々は、オープンソースのvoxceleb-trainerから参照された話者埋め込みをエンコーダとしてResNet-34を用いて抽出する。
最終提出されたシステムは0.3098 minDCFと5.076 % ERRであり、それぞれ1.3 % minDCFと2.2 % ERRを上回った。
- 参考スコア(独自算出の注目度): 3.0712335337791288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this report, we describe the submission of ShaneRun's team to the VoxCeleb
Speaker Recognition Challenge (VoxSRC) 2020. We use ResNet-34 as encoder to
extract the speaker embeddings, which is referenced from the open-source
voxceleb-trainer. We also provide a simple method to implement optimum fusion
using t-SNE normalized distance of testing utterance pairs instead of original
negative Euclidean distance from the encoder. The final submitted system got
0.3098 minDCF and 5.076 % ERR for Fixed data track, which outperformed the
baseline by 1.3 % minDCF and 2.2 % ERR respectively.
- Abstract(参考訳): 本稿では,ShaneRunのチームがVoxCeleb Speaker Recognition Challenge (VoxSRC) 2020に提出されたことを述べる。
我々は、オープンソースのvoxceleb-trainerから参照された話者埋め込みをエンコーダとしてResNet-34を用いて抽出する。
また、エンコーダから元の負ユークリッド距離ではなく、テスト発話対のt-sne正規化距離を用いた最適な融合を実現するための簡単な方法を提案する。
最終提出されたシステムは0.3098 minDCFと5.076 % ERRであり、それぞれ1.3 % minDCFと2.2 % ERRを上回った。
関連論文リスト
- The NPU-ASLP-LiAuto System Description for Visual Speech Recognition in
CNVSRC 2023 [67.11294606070278]
本稿では,第1回中国連続視覚音声認識チャレンジ(CNVSRC)2023において,NPU-ASLP-LiAuto(Team 237)が導入した視覚音声認識システムについて述べる。
データ処理に関しては,ベースライン1からリップモーション抽出器を利用してマルチスケール映像データを生成する。
トレーニング中に、速度摂動、ランダム回転、水平反転、色変換を含む様々な拡張技術が適用される。
論文 参考訳(メタデータ) (2024-01-07T14:20:52Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - The GUA-Speech System Description for CNVSRC Challenge 2023 [8.5257557043542]
本研究では,中国連続視覚音声認識チャレンジ(CNVSRC)2023におけるタスク1単一話者視覚音声認識(VSR)固定トラックについて述べる。
我々は、中間接続性時間分類(Inter CTC)残基を用いて、我々のモデルにおけるCTCの条件独立仮定を緩和する。
また、バイトランスフォーマーデコーダを使用して、モデルが過去と未来の両方のコンテキスト情報をキャプチャできるようにする。
論文 参考訳(メタデータ) (2023-12-12T13:35:33Z) - The Royalflush System for VoxCeleb Speaker Recognition Challenge 2022 [4.022057598291766]
VoxCeleb Speaker Recognition Challenge 2022(VoxSRC-22)のRoyalflush申請について述べる。
トラック1では,対称構造を持つ強力なU-Net型話者埋め込み抽出器を開発した。
トラック3では、話者埋め込み抽出器を得るために、ソースドメインの監督とターゲットドメインの自己監督を共同で訓練する。
論文 参考訳(メタデータ) (2022-09-19T13:35:36Z) - End-to-End Multi-speaker ASR with Independent Vector Analysis [80.83577165608607]
マルチチャンネル・マルチスピーカ自動音声認識のためのエンドツーエンドシステムを開発した。
本稿では, 独立ベクトル解析(IVA)のパラダイムを基礎として, ソース分離と収差分離のパラダイムを提案する。
論文 参考訳(メタデータ) (2022-04-01T05:45:33Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - Query Expansion System for the VoxCeleb Speaker Recognition Challenge
2020 [9.908371711364717]
本稿では,VoxCeleb Speaker Recognition Challenge (VoxSRC) 2020への応募について述べる。
1つは、話者検証にクエリ拡張を適用することであり、これは研究のベースラインと比較して大きな進歩を示している。
もう1つは、確率線形判別分析(PLDA)スコアとResNetスコアを組み合わせることである。
論文 参考訳(メタデータ) (2020-11-04T05:24:18Z) - The xx205 System for the VoxCeleb Speaker Recognition Challenge 2020 [2.7920304852537536]
本報告では、VoxCeleb Speaker Recognition Challenge (VoxSRC) 2020の第1および第2トラックに提出されたシステムについて述べる。
EERは3.808%$、MinDCFは0.1958$、EERは3.798%$、MinDCFは0.1942$である。
論文 参考訳(メタデータ) (2020-10-31T06:36:26Z) - Word Error Rate Estimation Without ASR Output: e-WER2 [36.43741370454534]
音声認識システムの単語誤り率(WER)を推定するために,マルチストリームのエンドツーエンドアーキテクチャを用いる。
内部音声デコーダ機能(グラスボックス)、音声デコーダ機能(ブラックボックス)のないシステム、およびASRシステム(ノーボックス)にアクセスできないシステムに対する結果について報告する。
文ごとの WER を考えると,本システムは基準評価とピアソンの0.56の相関と,1,400 文間でのルート平均二乗誤差(RMSE)の0.24の相関を達成できる。
論文 参考訳(メタデータ) (2020-08-08T00:19:09Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。