論文の概要: A Multi-Stage Triple-Path Method for Speech Separation in Noisy and
Reverberant Environments
- arxiv url: http://arxiv.org/abs/2303.03732v1
- Date: Tue, 7 Mar 2023 08:44:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-03-08 15:57:56.984449
- Title: A Multi-Stage Triple-Path Method for Speech Separation in Noisy and
Reverberant Environments
- Title(参考訳): 雑音・残響環境における音声分離のためのマルチステージトリプルパス法
- Authors: Zhaoxi Mu, Xinyu Yang, Xiangyuan Yang, Wenjing Zhu
- Abstract要約: 雑音や残響環境において,ディープラーニングに基づく音声分離手法の性能は劇的に低下する。
雑音および残響環境における難解な音声分離問題を3つのサブプロブレムに分離する多段階エンドツーエンド学習法を提案する。
解空間を小さくすることで、音声分離モデルの最適解を求める確率と速度を向上する。
- 参考スコア(独自算出の注目度): 8.763680382529412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In noisy and reverberant environments, the performance of deep learning-based
speech separation methods drops dramatically because previous methods are not
designed and optimized for such situations. To address this issue, we propose a
multi-stage end-to-end learning method that decouples the difficult speech
separation problem in noisy and reverberant environments into three
sub-problems: speech denoising, separation, and de-reverberation. The
probability and speed of searching for the optimal solution of the speech
separation model are improved by reducing the solution space. Moreover, since
the channel information of the audio sequence in the time domain is crucial for
speech separation, we propose a triple-path structure capable of modeling the
channel dimension of audio sequences. Experimental results show that the
proposed multi-stage triple-path method can improve the performance of speech
separation models at the cost of little model parameter increment.
- Abstract(参考訳): 雑音・残響環境においては,従来手法が設計・最適化されていないため,深層学習に基づく音声分離手法の性能は劇的に低下する。
そこで本研究では,雑音や残響環境における難解な音声分離問題を3つのサブプロブレムに分解する,多段階のエンドツーエンド学習手法を提案する。
解空間を縮小することにより、音声分離モデルの最適解を求める確率と速度を改善する。
さらに、時間領域における音声系列のチャネル情報は音声分離に不可欠であるため、音声系列のチャネル次元をモデル化できる3重パス構造を提案する。
実験の結果, 提案手法は, モデルパラメータインクリメントを小さくすることで, 音声分離モデルの性能を向上できることがわかった。
関連論文リスト
- Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文 参考訳(メタデータ) (2023-03-07T08:53:20Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Single-channel speech separation using Soft-minimum Permutation
Invariant Training [60.99112031408449]
教師付き音声分離における長寿命問題は、それぞれの分離された音声信号の正しいラベルを見つけることである。
Permutation Invariant Training (PIT) はラベルあいまいさ問題に対処する上で有望な解決策であることが示されている。
そこで本研究では,PITの不効率に対処する確率的最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-16T17:25:05Z) - Continuous Speech Separation with Ad Hoc Microphone Arrays [35.87274524040486]
音声分離は複数話者音声認識に有効であることが示された。
本稿では,このアプローチを連続音声分離に拡張する。
単一話者セグメントにおける音声問題を緩和する2つの手法を提案する。
論文 参考訳(メタデータ) (2021-03-03T13:01:08Z) - On End-to-end Multi-channel Time Domain Speech Separation in Reverberant
Environments [33.79711018198589]
本稿では,残響環境におけるマルチチャンネル時間領域音声分離手法を提案する。
完全な畳み込みニューラルネットワーク構造は、複数のマイク記録から直接音声を分離するために使われてきた。
残響が空間的特徴抽出に与える影響を低減するため, 残響前処理法が適用された。
論文 参考訳(メタデータ) (2020-11-11T18:25:07Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。