Fugu-MT 論文翻訳(概要): Training speaker recognition systems with limited data

論文の概要: Training speaker recognition systems with limited data

arxiv url: http://arxiv.org/abs/2203.14688v1
Date: Mon, 28 Mar 2022 12:41:41 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-30 00:07:38.074523
Title: Training speaker recognition systems with limited data
Title（参考訳）: 限られたデータを用いた話者認識システム
Authors: Nik Vaessen and David A. van Leeuwen
Abstract要約: この研究は、現代の研究に比べてデータセットサイズがはるかに小さい話者認識のためのニューラルネットワークのトレーニングを検討する。一般的なVoxCeleb2データセットの3つのサブセットを提案することで、データの量を人工的に制限する。トレーニングデータに制限がある場合,wav2vec2の自己教師付き事前訓練重量が有意に向上することを示す。
参考スコア（独自算出の注目度）: 2.3148470932285665
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This work considers training neural networks for speaker recognition with a much smaller dataset size compared to contemporary work. We artificially restrict the amount of data by proposing three subsets of the popular VoxCeleb2 dataset. These subsets are restricted to 50 k audio files (versus over 1 M files available), and vary on the axis of number of speakers and session variability. We train three speaker recognition systems on these subsets; the X-vector, ECAPA-TDNN, and wav2vec2 network architectures. We show that the self-supervised, pre-trained weights of wav2vec2 substantially improve performance when training data is limited. Code and data subsets are available at \url{https://github.com/nikvaessen/w2v2-speaker-few-samples}.
Abstract（参考訳）: 本研究は, 話者認識のためのニューラルネットワークの学習を, 現代の作業に比べてはるかに小さいデータセットサイズで検討するものである。一般的なVoxCeleb2データセットの3つのサブセットを提案することで、データの量を人工的に制限する。これらのサブセットは、50kオーディオファイル(利用可能な1mファイル以上)に制限され、話者数とセッション変動の軸によって異なる。 X-vector, ECAPA-TDNN, wav2vec2ネットワークアーキテクチャの3種類の話者認識システムを訓練する。トレーニングデータに制限がある場合,wav2vec2の自己教師付き事前訓練重量が有意に向上することを示す。コードとデータサブセットは \url{https://github.com/nikvaessen/w2v2-speaker-few-samples} で入手できる。

関連論文リスト

Stuttering Detection Using Speaker Representations and Self-supervised Contextual Embeddings [7.42741711946564]
本稿では,大規模音声データセットを訓練した事前学習したディープラーニングモデルから抽出した音声埋め込みの適用について紹介する。限られたSEP-28kデータセットでのみトレーニングされた標準SDシステムと比較して、ベースラインを上回る平均リコール(UAR)で12.08%、28.71%、37.9%の相対的な改善が得られた。
論文参考訳（メタデータ） (2023-06-01T14:00:47Z)
Auto-AVSR: Audio-Visual Speech Recognition with Automatic Labels [100.43280310123784]
トレーニングセットのサイズを増大させるために,未ラベルデータセットの自動書き起こしの使用について検討した。近年の文献的傾向であるトレーニングセットのサイズが大きくなると、ノイズのある書き起こしを用いたにもかかわらずWERが減少することが実証された。提案手法は,RS2 と LRS3 の AV-ASR 上での最先端性能を実現する。
論文参考訳（メタデータ） (2023-03-25T00:37:34Z)
AV-data2vec: Self-supervised Learning of Audio-Visual Speech Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。 LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-10T02:55:52Z)
Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文参考訳（メタデータ） (2023-01-04T05:36:56Z)
Jointly Learning Visual and Auditory Speech Representations from Raw Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。 RAVEnは視覚音声認識における全自己指導手法を超越している。
論文参考訳（メタデータ） (2022-12-12T21:04:06Z)
Introducing ECAPA-TDNN and Wav2Vec2.0 Embeddings to Stuttering Detection [7.42741711946564]
本研究は,大規模音声データセットに基づいて学習した訓練済みの深層モデルから抽出した音声埋め込みの応用を紹介する。制限されたSEP-28kデータセットのみに基づいてトレーニングされた標準的な散乱検出システムと比較して、ベースラインの全体的な精度に関して、相対的な改善は16.74%である。
論文参考訳（メタデータ） (2022-04-04T15:12:25Z)
Streaming Multi-speaker ASR with RNN-T [8.701566919381223]
本研究は、リカレントニューラルネットワークトランスデューサ(RNN-T)に基づくマルチスピーカ音声認識に焦点を当てている。 RNN-Tの高レベル話者追跡能力を高めるために,前者における話者順ラベルの分離が重要であることを示す。我々の最良モデルは、前述した最先端非ストリーミングモデル(10.3%)と競合する2話者Libriデータ上で10.2%のWERを達成する。
論文参考訳（メタデータ） (2020-11-23T19:10:40Z)
Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。 A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文参考訳（メタデータ） (2020-10-23T08:34:52Z)
Device-Robust Acoustic Scene Classification Based on Two-Stage Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。 Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文参考訳（メタデータ） (2020-07-16T15:07:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。