論文の概要: Speech enhancement aided end-to-end multi-task learning for voice
activity detection
- arxiv url: http://arxiv.org/abs/2010.12484v3
- Date: Tue, 13 Apr 2021 08:03:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 00:19:44.498308
- Title: Speech enhancement aided end-to-end multi-task learning for voice
activity detection
- Title(参考訳): 音声活動検出のためのエンドツーエンドマルチタスク学習を支援する音声強調
- Authors: Xu Tan, Xiao-Lei Zhang
- Abstract要約: 音声強調は音声活動検出(VAD)に役立つが、性能改善は限られている。
VADのための音声強調支援型エンドツーエンドマルチタスクモデルを提案する。
mSI-SDRは、トレーニングプロセスにおいて、VAD情報を使用して、音声強調デコーダの出力を隠蔽する。
- 参考スコア(独自算出の注目度): 40.44466027163059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust voice activity detection (VAD) is a challenging task in low
signal-to-noise (SNR) environments. Recent studies show that speech enhancement
is helpful to VAD, but the performance improvement is limited. To address this
issue, here we propose a speech enhancement aided end-to-end multi-task model
for VAD. The model has two decoders, one for speech enhancement and the other
for VAD. The two decoders share the same encoder and speech separation network.
Unlike the direct thought that takes two separated objectives for VAD and
speech enhancement respectively, here we propose a new joint optimization
objective -- VAD-masked scale-invariant source-to-distortion ratio (mSI-SDR).
mSI-SDR uses VAD information to mask the output of the speech enhancement
decoder in the training process. It makes the VAD and speech enhancement tasks
jointly optimized not only at the shared encoder and separation network, but
also at the objective level. It also satisfies real-time working requirement
theoretically. Experimental results show that the multi-task method
significantly outperforms its single-task VAD counterpart. Moreover, mSI-SDR
outperforms SI-SDR in the same multi-task setting.
- Abstract(参考訳): ロバスト音声活動検出(VAD)は低信号雑音(SNR)環境での課題である。
近年の研究では、音声強調はVADに役立つが、性能改善は限られている。
この問題に対処するため,VADのための音声強調支援マルチタスクモデルを提案する。
このモデルには2つのデコーダがあり、1つは音声強調用、もう1つはVAD用である。
2つのデコーダは同じエンコーダと音声分離ネットワークを共有している。
VADと音声強調の2つの目的を分離した直接的思考とは違って,新たな共同最適化目標であるVAD-masked Scale-invariant source-to-distortion ratio (mSI-SDR)を提案する。
msi-sdrはvad情報を使用して、訓練過程における音声強調デコーダの出力をマスキングする。
これにより、vadと音声強調タスクは、共有エンコーダと分離ネットワークだけでなく、目的レベルでも協調的に最適化される。
また、理論上はリアルタイムの作業要件を満たす。
実験の結果,マルチタスク方式は単一タスクのVADよりも有意に優れていた。
さらに、mSI-SDRは同じマルチタスク設定でSI-SDRより優れる。
関連論文リスト
- Joint speech and overlap detection: a benchmark over multiple audio
setup and speech domains [0.0]
VADとOSDは多クラス分類モデルを用いて共同で訓練することができる。
本稿では,様々なVADモデルとOSDモデルの完全かつ新しいベンチマークを提案する。
我々の2/3クラスシステムは、時間的畳み込みネットワークと設定に適応した音声表現を組み合わせることで、最先端の結果より優れています。
論文 参考訳(メタデータ) (2023-07-24T14:29:21Z) - Improving Code-Switching and Named Entity Recognition in ASR with Speech
Editing based Data Augmentation [22.38340990398735]
テキストベースの音声編集モデルを適用して,新たなデータ拡張手法を提案する。
コードスイッチングとNERタスクの実験結果から,提案手法は音声スプライシングとニューラルTSに基づくデータ拡張システムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-14T15:50:13Z) - Encoder-decoder multimodal speaker change detection [15.290910973040152]
話者変化検出(SCD)はいくつかのアプリケーションに必須である。
音声に加えてテキストモダリティを利用するマルチモーダルSCDモデルでは,性能が向上した。
本研究は、モダリティ融合のための新しいメカニズムとエンコーダ・デコーダアーキテクチャの採用という、2つの主要な提案に基づいている。
論文 参考訳(メタデータ) (2023-06-01T13:55:23Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - ESPnet-SE++: Speech Enhancement for Robust Speech Recognition,
Translation, and Understanding [86.47555696652618]
本稿では,音声分離と拡張をESPnetツールキットに統合する最近の進歩について述べる。
新しいインタフェースは、音声認識(ASR)、音声翻訳(ST)、音声言語理解(SLU)など、音声強調フロントエンドと他のタスクを併用するように設計されている。
その結果,SEフロントエンドとバックエンドタスクの統合は,ASR以外のタスクにおいても有望な研究方向であることが示唆された。
論文 参考訳(メタデータ) (2022-07-19T18:55:29Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Long-Running Speech Recognizer:An End-to-End Multi-Task Learning
Framework for Online ASR and VAD [10.168591454648123]
本稿では、ASRとVODを1つのモデルに統合する新しいエンドツーエンド(E2E)マルチタスク学習(MTL)フレームワークを提案する。
提案システムはLong-Running Speech Recognizer (LR-SR) と呼ばれ, 訓練段階における2つのタスク固有のデータセットから, ASR と VAD を併用して学習する。
推論段階では、LR-SRシステムは低計算コストで非音声部品を除去し、高い堅牢性を有する音声部品を認識する。
論文 参考訳(メタデータ) (2021-03-02T11:49:03Z) - Directional ASR: A New Paradigm for E2E Multi-Speaker Speech Recognition
with Source Localization [73.62550438861942]
本稿では、指向性自動音声認識(D-ASR)と呼ばれる、エンドツーエンドのニューラルネットワーク方式で遠距離場マルチスピーカデータを処理するための新しいパラダイムを提案する。
D-ASRでは、マイクロホンアレイに対するソースの方位角を潜時変数として定義する。
論文 参考訳(メタデータ) (2020-10-30T20:26:28Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Discriminative Multi-modality Speech Recognition [17.296404414250553]
視覚は、しばしば音声音声認識(ASR)の相補的モダリティとして使用される。
本稿では,2段階音声認識モデルを提案する。
第1段階では、対象の音声を、対応する唇の動きの視覚情報から助けを借りて背景雑音から分離し、モデル「リスト」を明確にする。
第2段階では、音声モダリティは視覚的モダリティを再び組み合わせて、MSRサブネットワークによる音声の理解を深め、認識率をさらに向上させる。
論文 参考訳(メタデータ) (2020-05-12T07:56:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。