論文の概要: A Unified Deep Learning Framework for Short-Duration Speaker
Verification in Adverse Environments
- arxiv url: http://arxiv.org/abs/2010.02477v1
- Date: Tue, 6 Oct 2020 04:51:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 05:10:09.695554
- Title: A Unified Deep Learning Framework for Short-Duration Speaker
Verification in Adverse Environments
- Title(参考訳): 逆環境における短距離話者検証のための統合ディープラーニングフレームワーク
- Authors: Youngmoon Jung, Yeunju Choi, Hyungjun Lim, Hoirin Kim
- Abstract要約: 話者検証(SV)システムは、特に雑音や残響環境において、短い音声セグメントに対して堅牢であるべきである。
これら2つの要件を満たすため、機能ピラミッドモジュール(FPM)ベースのマルチスケールアグリゲーション(MSA)と自己適応型ソフトVAD(SAS-VAD)を導入する。
SV、VAD、SEモデルを統合されたディープラーニングフレームワークで組み合わせ、エンドツーエンドでネットワーク全体を共同でトレーニングします。
- 参考スコア(独自算出の注目度): 16.91453126121351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speaker verification (SV) has recently attracted considerable research
interest due to the growing popularity of virtual assistants. At the same time,
there is an increasing requirement for an SV system: it should be robust to
short speech segments, especially in noisy and reverberant environments. In
this paper, we consider one more important requirement for practical
applications: the system should be robust to an audio stream containing long
non-speech segments, where a voice activity detection (VAD) is not applied. To
meet these two requirements, we introduce feature pyramid module (FPM)-based
multi-scale aggregation (MSA) and self-adaptive soft VAD (SAS-VAD). We present
the FPM-based MSA to deal with short speech segments in noisy and reverberant
environments. Also, we use the SAS-VAD to increase the robustness to long
non-speech segments. To further improve the robustness to acoustic distortions
(i.e., noise and reverberation), we apply a masking-based speech enhancement
(SE) method. We combine SV, VAD, and SE models in a unified deep learning
framework and jointly train the entire network in an end-to-end manner. To the
best of our knowledge, this is the first work combining these three models in a
deep learning framework. We conduct experiments on Korean indoor (KID) and
VoxCeleb datasets, which are corrupted by noise and reverberation. The results
show that the proposed method is effective for SV in the challenging conditions
and performs better than the baseline i-vector and deep speaker embedding
systems.
- Abstract(参考訳): 近年,仮想アシスタントの普及に伴い,話者検証 (SV) が注目されている。
同時に、SVシステムは、特に雑音や残響環境において、短い音声セグメントに対して堅牢でなければならないという要求が高まっている。
本稿では,音声活動検出(VAD)が適用されない長い非音声セグメントを含む音声ストリームに対して,システムは堅牢であるべきである。
これら2つの要件を満たすために,機能ピラミッドモジュール (FPM) ベースのマルチスケールアグリゲーション (MSA) と自己適応型ソフトVAD (SAS-VAD) を導入する。
雑音および残響環境における短い音声セグメントを扱うためのFPMベースのMSAを提案する。
また、SAS-VADを用いて、長い非音声セグメントへのロバスト性を高める。
音響歪み(ノイズや残響)に対する頑健性をさらに向上するため,マスキングに基づく音声強調法(SE)を適用した。
SV、VAD、SEモデルを統合されたディープラーニングフレームワークで組み合わせ、エンドツーエンドでネットワーク全体を共同でトレーニングします。
私たちの知る限りでは、この3つのモデルをディープラーニングフレームワークに組み込むことは初めてです。
韓国屋内(kid)とvoxcelebデータセットについて,ノイズや残響によって破損する実験を行った。
その結果,提案手法は課題条件下ではsvに有効であり,ベースラインi-vectorや深い話者埋め込みシステムよりも優れた性能を示す。
関連論文リスト
- Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - CPM: Class-conditional Prompting Machine for Audio-visual Segmentation [17.477225065057993]
CPM(Class-conditional Prompting Machine)は,クラス非依存クエリとクラス条件クエリを組み合わせた学習戦略により,双方向マッチングを改善した。
我々はAVSベンチマーク実験を行い、その手法がSOTA(State-of-the-art)セグメンテーションの精度を実現することを示す。
論文 参考訳(メタデータ) (2024-07-07T13:20:21Z) - Robust Active Speaker Detection in Noisy Environments [29.785749048315616]
雑音環境下での頑健なアクティブ話者検出(rASD)問題を定式化する。
既存のASDアプローチは、音声と視覚の両モードを利用するが、周囲の環境における非音声は、性能に悪影響を及ぼす可能性がある。
雑音のない音声特徴を学習するためのガイダンスとして,音声・視覚的音声分離を利用した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T20:52:30Z) - Unsupervised Audio-Visual Segmentation with Modality Alignment [42.613786372067814]
Audio-Visualは、特定の音を生成する視覚シーンのオブジェクトをピクセルレベルで識別することを目的としている。
現在のAVSメソッドは、コストのかかるマスクとオーディオのペアの細かいアノテーションに依存しているため、スケーラビリティには実用的ではない。
そこで本研究では,モダリティ対応アライメント(MoCA)と呼ばれる教師なし学習手法を提案する。
論文 参考訳(メタデータ) (2024-03-21T07:56:09Z) - Leveraging Foundation models for Unsupervised Audio-Visual Segmentation [49.94366155560371]
AVS (Audio-Visual) は、可聴物体をピクセルレベルの視覚シーンで正確に概説することを目的としている。
既存のAVS手法では、教師付き学習方式でオーディオマスク対の細かいアノテーションを必要とする。
タスク固有のデータアノテーションやモデルトレーニングを必要とせず、教師なしの音声-視覚的セグメンテーションを導入する。
論文 参考訳(メタデータ) (2023-09-13T05:05:47Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Joint speech and overlap detection: a benchmark over multiple audio
setup and speech domains [0.0]
VADとOSDは多クラス分類モデルを用いて共同で訓練することができる。
本稿では,様々なVADモデルとOSDモデルの完全かつ新しいベンチマークを提案する。
我々の2/3クラスシステムは、時間的畳み込みネットワークと設定に適応した音声表現を組み合わせることで、最先端の結果より優れています。
論文 参考訳(メタデータ) (2023-07-24T14:29:21Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Multi-Task Network for Noise-Robust Keyword Spotting and Speaker
Verification using CTC-based Soft VAD and Global Query Attention [13.883985850789443]
キーワードスポッティング(KWS)と話者検証(SV)は独立に研究されているが、音響領域と話者領域は相補的である。
KWS と SV を同時に行うマルチタスクネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-08T05:58:46Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。