論文の概要: Speech enhancement aided end-to-end multi-task learning for voice
activity detection
- arxiv url: http://arxiv.org/abs/2010.12484v3
- Date: Tue, 13 Apr 2021 08:03:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 00:19:44.498308
- Title: Speech enhancement aided end-to-end multi-task learning for voice
activity detection
- Title(参考訳): 音声活動検出のためのエンドツーエンドマルチタスク学習を支援する音声強調
- Authors: Xu Tan, Xiao-Lei Zhang
- Abstract要約: 音声強調は音声活動検出(VAD)に役立つが、性能改善は限られている。
VADのための音声強調支援型エンドツーエンドマルチタスクモデルを提案する。
mSI-SDRは、トレーニングプロセスにおいて、VAD情報を使用して、音声強調デコーダの出力を隠蔽する。
- 参考スコア(独自算出の注目度): 40.44466027163059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust voice activity detection (VAD) is a challenging task in low
signal-to-noise (SNR) environments. Recent studies show that speech enhancement
is helpful to VAD, but the performance improvement is limited. To address this
issue, here we propose a speech enhancement aided end-to-end multi-task model
for VAD. The model has two decoders, one for speech enhancement and the other
for VAD. The two decoders share the same encoder and speech separation network.
Unlike the direct thought that takes two separated objectives for VAD and
speech enhancement respectively, here we propose a new joint optimization
objective -- VAD-masked scale-invariant source-to-distortion ratio (mSI-SDR).
mSI-SDR uses VAD information to mask the output of the speech enhancement
decoder in the training process. It makes the VAD and speech enhancement tasks
jointly optimized not only at the shared encoder and separation network, but
also at the objective level. It also satisfies real-time working requirement
theoretically. Experimental results show that the multi-task method
significantly outperforms its single-task VAD counterpart. Moreover, mSI-SDR
outperforms SI-SDR in the same multi-task setting.
- Abstract(参考訳): ロバスト音声活動検出(VAD)は低信号雑音(SNR)環境での課題である。
近年の研究では、音声強調はVADに役立つが、性能改善は限られている。
この問題に対処するため,VADのための音声強調支援マルチタスクモデルを提案する。
このモデルには2つのデコーダがあり、1つは音声強調用、もう1つはVAD用である。
2つのデコーダは同じエンコーダと音声分離ネットワークを共有している。
VADと音声強調の2つの目的を分離した直接的思考とは違って,新たな共同最適化目標であるVAD-masked Scale-invariant source-to-distortion ratio (mSI-SDR)を提案する。
msi-sdrはvad情報を使用して、訓練過程における音声強調デコーダの出力をマスキングする。
これにより、vadと音声強調タスクは、共有エンコーダと分離ネットワークだけでなく、目的レベルでも協調的に最適化される。
また、理論上はリアルタイムの作業要件を満たす。
実験の結果,マルチタスク方式は単一タスクのVADよりも有意に優れていた。
さらに、mSI-SDRは同じマルチタスク設定でSI-SDRより優れる。
関連論文リスト
- SELMA: A Speech-Enabled Language Model for Virtual Assistant Interactions [48.02083833667388]
仮想アシスタントインタラクションのための言語モデルであるSELMAを提示し,評価する。
オーディオエンコーダとLarge Language Modelの両方のパラメータ効率訓練に低ランク適応モジュールを用いる。
論文 参考訳(メタデータ) (2025-01-31T18:30:36Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - Joint speech and overlap detection: a benchmark over multiple audio
setup and speech domains [0.0]
VADとOSDは多クラス分類モデルを用いて共同で訓練することができる。
本稿では,様々なVADモデルとOSDモデルの完全かつ新しいベンチマークを提案する。
我々の2/3クラスシステムは、時間的畳み込みネットワークと設定に適応した音声表現を組み合わせることで、最先端の結果より優れています。
論文 参考訳(メタデータ) (2023-07-24T14:29:21Z) - Encoder-decoder multimodal speaker change detection [15.290910973040152]
話者変化検出(SCD)はいくつかのアプリケーションに必須である。
音声に加えてテキストモダリティを利用するマルチモーダルSCDモデルでは,性能が向上した。
本研究は、モダリティ融合のための新しいメカニズムとエンコーダ・デコーダアーキテクチャの採用という、2つの主要な提案に基づいている。
論文 参考訳(メタデータ) (2023-06-01T13:55:23Z) - Long-Running Speech Recognizer:An End-to-End Multi-Task Learning
Framework for Online ASR and VAD [10.168591454648123]
本稿では、ASRとVODを1つのモデルに統合する新しいエンドツーエンド(E2E)マルチタスク学習(MTL)フレームワークを提案する。
提案システムはLong-Running Speech Recognizer (LR-SR) と呼ばれ, 訓練段階における2つのタスク固有のデータセットから, ASR と VAD を併用して学習する。
推論段階では、LR-SRシステムは低計算コストで非音声部品を除去し、高い堅牢性を有する音声部品を認識する。
論文 参考訳(メタデータ) (2021-03-02T11:49:03Z) - Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文 参考訳(メタデータ) (2020-10-30T20:26:28Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Discriminative Multi-modality Speech Recognition [17.296404414250553]
視覚は、しばしば音声音声認識(ASR)の相補的モダリティとして使用される。
本稿では,2段階音声認識モデルを提案する。
第1段階では、対象の音声を、対応する唇の動きの視覚情報から助けを借りて背景雑音から分離し、モデル「リスト」を明確にする。
第2段階では、音声モダリティは視覚的モダリティを再び組み合わせて、MSRサブネットワークによる音声の理解を深め、認識率をさらに向上させる。
論文 参考訳(メタデータ) (2020-05-12T07:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。