論文の概要: Time-Domain Mapping Based Single-Channel Speech Separation With
Hierarchical Constraint Training
- arxiv url: http://arxiv.org/abs/2110.10593v1
- Date: Wed, 20 Oct 2021 14:42:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-22 18:43:43.136985
- Title: Time-Domain Mapping Based Single-Channel Speech Separation With
Hierarchical Constraint Training
- Title(参考訳): 階層的制約訓練による時間領域マッピングに基づく単一チャネル音声分離
- Authors: Chenyang Gao, Yue Gu, and Ivan Marsic
- Abstract要約: 複数話者音声認識には単一チャンネル音声分離が必要である。
時間領域音声分離網(TasNet)に着目した最近の深層学習に基づくアプローチ
音声分離用混合物からクリーンソースを直接近似する注意増強型DPRNN(AttnAugDPRNN)を導入する。
- 参考スコア(独自算出の注目度): 10.883458728718047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single-channel speech separation is required for multi-speaker speech
recognition. Recent deep learning-based approaches focused on time-domain audio
separation net (TasNet) because it has superior performance and lower latency
compared to the conventional time-frequency-based (T-F-based) approaches. Most
of these works rely on the masking-based method that estimates a linear mapping
function (mask) for each speaker. However, the other commonly used method, the
mapping-based method that is less sensitive to SNR variations, is inadequately
studied in the time domain. We explore the potential of the mapping-based
method by introducing attention augmented DPRNN (AttnAugDPRNN) which directly
approximates the clean sources from the mixture for speech separation.
Permutation Invariant Training (PIT) has been a paradigm to solve the label
ambiguity problem for speech separation but usually leads to suboptimal
performance. To solve this problem, we propose an efficient training strategy
called Hierarchical Constraint Training (HCT) to regularize the training, which
could effectively improve the model performance. When using PIT, our results
showed that mapping-based AttnAugDPRNN outperformed masking-based AttnAugDPRNN
when the training corpus is large. Mapping-based AttnAugDPRNN with HCT
significantly improved the SI-SDR by 10.1% compared to the masking-based
AttnAugDPRNN without HCT.
- Abstract(参考訳): 複数話者音声認識には単一チャンネル音声分離が必要である。
近年,時間領域オーディオ分離網 (TasNet) に注目が集まっている。これは従来の時間周波数ベース (T-F-based) の手法と比較して,性能とレイテンシが低いためである。
これらの作業のほとんどは、各話者の線形マッピング関数(mask)を推定するマスキングベースの方法に依存している。
しかし、SNRの変動に敏感でない写像に基づく他の手法は、時間領域において不十分に研究されている。
音声分離用混合物からクリーンソースを直接近似する注意増強型DPRNN(AttnAugDPRNN)を導入することにより、マッピング手法の可能性を探る。
置換不変訓練(Permutation Invariant Training, PIT)は、音声分離のためのラベルあいまい性問題を解決するパラダイムであるが、通常は準最適性能をもたらす。
そこで本研究では,HCT(Hierarchical Constraint Training)と呼ばれる効率的なトレーニング戦略を提案する。
PITでは,トレーニングコーパスが大きい場合,地図ベースの AttnAugDPRNN がマスキングベースの AttnAugDPRNN より優れていた。
HCTを使用したマッピングベースのAttnAugDPRNNは、HCTを使用せずに、マスクベースのAttnAugDPRNNと比較して、SI-SDRを10.1%改善した。
関連論文リスト
- Run-Time Adaptation of Neural Beamforming for Robust Speech Dereverberation and Denoising [15.152748065111194]
本稿では,実環境におけるリアルタイム自動音声認識のための音声強調について述べる。
ノイズの多いエコー混合分光器とディープニューラルネットワーク(DNN)からクリーンドライ音声のマスクを推定し、ビームフォーミングに用いる拡張フィルタを算出する。
しかし、このような教師付きアプローチのパフォーマンスは、ミスマッチした条件下で大幅に劣化する。
論文 参考訳(メタデータ) (2024-10-30T08:32:47Z) - Policy Gradient-Driven Noise Mask [3.69758875412828]
本稿では,マルチモーダル・マルチオーガナイズドデータセットの性能向上に適した条件付きノイズマスクの生成を学習する,新しい事前学習パイプラインを提案する。
重要な側面は、ポリシーネットワークの役割が微調整の前に中間的な(または加熱された)モデルを取得することに限定されていることである。
その結果、中間モデルの微調整は、分類と一般化の両方の従来の訓練アルゴリズムよりも、目に見えない概念タスクに優れていた。
論文 参考訳(メタデータ) (2024-04-29T23:53:42Z) - Efficient Ensemble for Multimodal Punctuation Restoration using
Time-Delay Neural Network [1.006218778776515]
自動音声認識の処理過程において,句読解は重要な役割を担っている。
マルチモーダル時間遅延ニューラルネットワークを用いたアンサンブル手法であるEfficientPunctを提案する。
現在のベストモデルを1.0 F1ポイント上回り、推論ネットワークパラメータの10分の1以下である。
論文 参考訳(メタデータ) (2023-02-26T18:28:20Z) - A DNN based Normalized Time-frequency Weighted Criterion for Robust
Wideband DoA Estimation [24.175086158375464]
本稿では、T-F領域における候補ステアリングベクトルとフィルタスナップショットとの距離を最小化する正規化時間周波数重み付き基準を提案する。
本手法では固有分解を必要とせず,ノイズスナップショットによる最適化目標の誤認を防止するため,単純な正規化を用いる。
実験により,提案手法は,雑音および残響環境において広く用いられている部分空間法を含む,一般的なDNNに基づくDoA推定法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-20T18:26:52Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。
復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。
提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文 参考訳(メタデータ) (2021-04-27T23:31:43Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。