論文の概要: Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining
- arxiv url: http://arxiv.org/abs/2501.03184v1
- Date: Mon, 06 Jan 2025 18:00:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:05:21.381805
- Title: Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining
- Title(参考訳): 自己教師付き事前学習によるノイズ・ロバスト目標話者音声活動の検出
- Authors: Holger Severin Bovbjerg, Jan Østergaard, Jesper Jensen, Zheng-Hua Tan,
- Abstract要約: ターゲット話者音声活動検出(Target-Speaker Voice Activity Detection、TS-VAD)は、音声フレーム内の既知のターゲット話者から音声の存在を検出するタスクである。
ディープニューラルネットワークベースのモデルは、このタスクで優れたパフォーマンスを示している。
雑音条件下でのTS-VAD性能を向上させるための、因果的自己監視学習(SSL)事前トレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 21.26555178371168
- License:
- Abstract: Target-Speaker Voice Activity Detection (TS-VAD) is the task of detecting the presence of speech from a known target-speaker in an audio frame. Recently, deep neural network-based models have shown good performance in this task. However, training these models requires extensive labelled data, which is costly and time-consuming to obtain, particularly if generalization to unseen environments is crucial. To mitigate this, we propose a causal, Self-Supervised Learning (SSL) pretraining framework, called Denoising Autoregressive Predictive Coding (DN-APC), to enhance TS-VAD performance in noisy conditions. We also explore various speaker conditioning methods and evaluate their performance under different noisy conditions. Our experiments show that DN-APC improves performance in noisy conditions, with a general improvement of approx. 2% in both seen and unseen noise. Additionally, we find that FiLM conditioning provides the best overall performance. Representation analysis via tSNE plots reveals robust initial representations of speech and non-speech from pretraining. This underscores the effectiveness of SSL pretraining in improving the robustness and performance of TS-VAD models in noisy environments.
- Abstract(参考訳): ターゲット話者音声活動検出(Target-Speaker Voice Activity Detection、TS-VAD)は、音声フレーム内の既知のターゲット話者から音声の存在を検出するタスクである。
近年、ディープニューラルネットワークベースのモデルがこのタスクで優れたパフォーマンスを示している。
しかし、これらのモデルのトレーニングには広範囲なラベル付きデータが必要であり、特に目に見えない環境への一般化が不可欠である場合、取得にはコストと時間を要する。
これを軽減するために,DN-APC (Denoising Autoregressive Predictive Coding) と呼ばれる因果的自己監督学習(SSL)事前学習フレームワークを提案し,雑音条件下でのTS-VAD性能を向上させる。
また, 様々な話者条件付け手法について検討し, 雑音の異なる条件下での性能評価を行った。
実験の結果,DN-APCは騒音条件下での性能を向上し,アポックスの全般的な改善が得られた。
2%であった。
さらに、FiLMコンディショニングが全体的なパフォーマンスに最高のものであることもわかりました。
tSNEプロットによる表現解析により、事前学習から音声と非音声の頑健な初期表現が明らかになる。
このことは、ノイズの多い環境でのTS-VADモデルの堅牢性と性能を改善する上で、SSL事前トレーニングの有効性を裏付けるものである。
関連論文リスト
- Towards Robust Transcription: Exploring Noise Injection Strategies for Training Data Augmentation [55.752737615873464]
本研究では,SNR(Signal-to-Noise Ratio)レベルにおける白色雑音の影響について検討した。
この研究は、様々な音環境における一貫した性能を維持する転写モデルの開発に向けた予備的な研究として、貴重な洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-10-18T02:31:36Z) - Audio Enhancement for Computer Audition -- An Iterative Training Paradigm Using Sample Importance [42.90024643696503]
音声強調のためのモデルを協調的に最適化するエンド・ツー・エンドの学習ソリューションを提案する。
トレーニングパラダイムを評価するための4つの代表的なアプリケーションについて検討する。
論文 参考訳(メタデータ) (2024-08-12T16:23:58Z) - Robust Active Speaker Detection in Noisy Environments [29.785749048315616]
雑音環境下での頑健なアクティブ話者検出(rASD)問題を定式化する。
既存のASDアプローチは、音声と視覚の両モードを利用するが、周囲の環境における非音声は、性能に悪影響を及ぼす可能性がある。
雑音のない音声特徴を学習するためのガイダンスとして,音声・視覚的音声分離を利用した新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T20:52:30Z) - Self-supervised Pretraining for Robust Personalized Voice Activity
Detection in Adverse Conditions [0.0]
我々は、自己回帰予測符号化フレームワークを用いて、長期記憶(LSTM)エンコーダを事前訓練する。
パーソナライズされたVADのロバスト性を改善することを目的として,APCのデノベーション版も提案する。
実験の結果, 自己指導型プレトレーニングは, 清潔な条件下での性能を向上させるだけでなく, 悪条件に対してより堅牢なモデルが得られることがわかった。
論文 参考訳(メタデータ) (2023-12-27T15:36:17Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Variational Autoencoder for Speech Enhancement with a Noise-Aware
Encoder [30.318947721658862]
本稿では,ノイズ対応エンコーダを用いて,学習段階での雑音情報を含むことを提案する。
提案するノイズ認識vaeは,モデルパラメータ数を増加させることなく,全体的な歪みの観点から標準vaeを上回っている。
論文 参考訳(メタデータ) (2021-02-17T11:40:42Z) - Speech Enhancement for Wake-Up-Word detection in Voice Assistants [60.103753056973815]
キースポッティング、特にWake-Up-Word(WUW)検出は音声アシスタントにとって非常に重要なタスクである。
本稿では,WUW検出に適応した音声強調モデルを提案する。
これらのノイズの存在下で、認識率を高め、誤報を減らすことを目的としている。
論文 参考訳(メタデータ) (2021-01-29T18:44:05Z) - CITISEN: A Deep Learning-Based Speech Signal-Processing Mobile
Application [63.2243126704342]
本研究では,CitisENと呼ばれる深層学習に基づく音声信号処理モバイルアプリケーションを提案する。
CitisENは、音声強調(SE)、モデル適応(MA)、背景雑音変換(BNC)の3つの機能を提供している。
雑音の多い音声信号と比較すると、改良された音声信号の約6%と33%の改善が達成された。
論文 参考訳(メタデータ) (2020-08-21T02:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。