論文の概要: Sparsely Overlapped Speech Training in the Time Domain: Joint Learning
of Target Speech Separation and Personal VAD Benefits
- arxiv url: http://arxiv.org/abs/2106.14371v1
- Date: Mon, 28 Jun 2021 02:35:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 00:45:26.115643
- Title: Sparsely Overlapped Speech Training in the Time Domain: Joint Learning
of Target Speech Separation and Personal VAD Benefits
- Title(参考訳): 時間領域における軽度オーバーラップ音声訓練:ターゲット音声分離と個人的VAD効果の同時学習
- Authors: Qingjian Lin, Lin Yang, Xuyang Wang, Luyuan Xie, Chen Jia, Junjie Wang
- Abstract要約: 本稿では,重み付きSI-SNR損失と目標音声分離と個人VADの併用学習を提案する。
実験の結果,提案手法は完全重畳音声のSDRにおいて,ベースラインを1.73dB向上させることがわかった。
- 参考スコア(独自算出の注目度): 15.449455849939103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Target speech separation is the process of filtering a certain speaker's
voice out of speech mixtures according to the additional speaker identity
information provided. Recent works have made considerable improvement by
processing signals in the time domain directly. The majority of them take fully
overlapped speech mixtures for training. However, since most real-life
conversations occur randomly and are sparsely overlapped, we argue that
training with different overlap ratio data benefits. To do so, an unavoidable
problem is that the popularly used SI-SNR loss has no definition for silent
sources. This paper proposes the weighted SI-SNR loss, together with the joint
learning of target speech separation and personal VAD. The weighted SI-SNR loss
imposes a weight factor that is proportional to the target speaker's duration
and returns zero when the target speaker is absent. Meanwhile, the personal VAD
generates masks and sets non-target speech to silence. Experiments show that
our proposed method outperforms the baseline by 1.73 dB in terms of SDR on
fully overlapped speech, as well as by 4.17 dB and 0.9 dB on sparsely
overlapped speech of clean and noisy conditions. Besides, with slight
degradation in performance, our model could reduce the time costs in inference.
- Abstract(参考訳): ターゲット音声分離(Target speech separation)とは、特定の話者の音声を、追加の話者識別情報に従って混合音声からフィルタリングする過程である。
近年の作業は、時間領域の信号を直接処理することで大幅に改善されている。
多くは、訓練のために完全に重複した混合音声を使用する。
しかし,実際の会話のほとんどがランダムに発生し,重複度が低かったため,重複率の異なるトレーニングが有益である。
そのため、一般に使われているsi-snrの損失はサイレントソースの定義を持たない。
本稿では,重み付きSI-SNR損失と目標音声分離と個人VADの併用学習を提案する。
重み付きSI-SNR損失は、目標話者の持続時間に比例する重み係数を課し、目標話者が欠落した場合にはゼロを返す。
一方、個人vadはマスクを生成し、非ターゲット音声を沈黙に設定する。
実験により, 提案手法は, 完全重複音声におけるSDRと, 疎重複音声における4.17dB, 0.9dBにおいて, 1.73dBのベースラインよりも優れていた。
さらに、性能がわずかに低下すれば、モデルが推論の時間コストを削減できます。
関連論文リスト
- Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition [18.50957174600796]
重なり合う話者の自動音声認識(ASR)の解決策は、音声を分離し、分離された信号でASRを実行することである。
現在、セパレータはASR性能を劣化させるアーティファクトを生産している。
本稿では,音声信号のみを用いた共同学習のための書き起こし不要手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T08:20:58Z) - Online speaker diarization of meetings guided by speech separation [0.0]
重複した音声は、話者ダイアリゼーションシステムに問題があることで知られている。
長時間録音のオンライン話者ダイアリゼーションに適した音声分離誘導ダイアリゼーション方式を提案する。
論文 参考訳(メタデータ) (2024-01-30T09:09:22Z) - Audio-visual End-to-end Multi-channel Speech Separation, Dereverberation
and Recognition [52.11964238935099]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
ビデオ入力は、マスクベースのMVDR音声分離、DNN-WPEまたはスペクトルマッピング(SpecM)ベースの音声残響フロントエンドで一貫して実証される。
オックスフォードLSS2データセットのシミュレーションや再生を用いて合成した重畳および残響音声データについて実験を行った。
論文 参考訳(メタデータ) (2023-07-06T10:50:46Z) - Improving the Gap in Visual Speech Recognition Between Normal and Silent
Speech Based on Metric Learning [11.50011780498048]
本稿では,視覚音声認識(VSR)における正常音声と無声音声のパフォーマンスギャップに対処する新しい距離学習手法を提案する。
本稿では,通常の音声とサイレント音声の共有リテラルコンテンツを活用し,ビセムに基づく計量学習手法を提案する。
本手法は,限られた訓練データであってもサイレントVSRの精度が向上することを示す。
論文 参考訳(メタデータ) (2023-05-23T16:20:46Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。
我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文 参考訳(メタデータ) (2020-08-13T09:36:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。