論文の概要: Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation
- arxiv url: http://arxiv.org/abs/2001.00391v1
- Date: Thu, 2 Jan 2020 11:12:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-16 04:49:22.835114
- Title: Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation
- Title(参考訳): 時間空間ニューラルフィルタ:方向インフォームドエンド・ツー・エンドマルチチャネル音声分離
- Authors: Rongzhi Gu and Yuexian Zou
- Abstract要約: ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
- 参考スコア(独自算出の注目度): 66.46123655365113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Target speech separation refers to extracting the target speaker's speech
from mixed signals. Despite the recent advances in deep learning based
close-talk speech separation, the applications to real-world are still an open
issue. Two main challenges are the complex acoustic environment and the
real-time processing requirement. To address these challenges, we propose a
temporal-spatial neural filter, which directly estimates the target speech
waveform from multi-speaker mixture in reverberant environments, assisted with
directional information of the speaker(s). Firstly, against variations brought
by complex environment, the key idea is to increase the acoustic representation
completeness through the jointly modeling of temporal, spectral and spatial
discriminability between the target and interference source. Specifically,
temporal, spectral, spatial along with the designed directional features are
integrated to create a joint acoustic representation. Secondly, to reduce the
latency, we design a fully-convolutional autoencoder framework, which is purely
end-to-end and single-pass. All the feature computation is implemented by the
network layers and operations to speed up the separation procedure. Evaluation
is conducted on simulated reverberant dataset WSJ0-2mix and WSJ0-3mix under
speaker-independent scenario. Experimental results demonstrate that the
proposed method outperforms state-of-the-art deep learning based multi-channel
approaches with fewer parameters and faster processing speed. Furthermore, the
proposed temporal-spatial neural filter can handle mixtures with varying and
unknown number of speakers and exhibits persistent performance even when
existing a direction estimation error. Codes and models will be released soon.
- Abstract(参考訳): ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
近年のディープラーニングに基づく近接トーク音声分離の進歩にもかかわらず、現実世界への応用は依然として未解決の課題である。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
そこで本研究では, 残響環境における複数話者混合音から目標音声波形を直接推定し, 話者の方向情報を支援する時間空間ニューラルフィルタを提案する。
まず, 複雑な環境によってもたらされる変動に対して, 対象と干渉源との時間的, スペクトル的, 空間的判別可能性の共同モデリングにより, 音響表現の完全性を高めることが鍵となる。
具体的には、時間的、スペクトル的、空間的、および設計された方向的特徴が統合され、結合音響表現が作成される。
第二に、レイテンシを低減するために、完全に畳み込みのオートエンコーダフレームワークを設計します。
すべての特徴計算はネットワーク層と操作によって実装され、分離手順を高速化する。
話者非依存のシナリオでは、シミュレーション残響データセット wsj0-2mix と wsj0-3mix で評価を行う。
実験により,提案手法は,より少ないパラメータと高速な処理速度で,最先端の深層学習に基づくマルチチャネルアプローチよりも優れた性能を示した。
さらに,提案する時間空間ニューラルフィルタは,話者数や未知数との混合を処理可能であり,既存の方向推定誤差であっても持続的な性能を示す。
コードとモデルはまもなくリリースされる。
関連論文リスト
- TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation [19.126525226518975]
パラメータと計算コストを大幅に削減した音声分離モデルを提案する。
TIGERは事前の知識を活用して周波数帯域を分割し、周波数情報を圧縮する。
我々は、TIGERが、最先端(SOTA)モデルTF-GridNetを上回る性能を達成することを示す。
論文 参考訳(メタデータ) (2024-10-02T12:21:06Z) - Attention-Driven Multichannel Speech Enhancement in Moving Sound Source
Scenarios [11.811571392419324]
音声強調アルゴリズムは典型的に静止音源を仮定するが、これは現実との共通のミスマッチであり、現実のシナリオではその性能を制限している。
本稿では,動的設定のための注意駆動型空間フィルタリング技術について述べる。
論文 参考訳(メタデータ) (2023-12-17T16:12:35Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Direction-Aware Adaptive Online Neural Speech Enhancement with an
Augmented Reality Headset in Real Noisy Conversational Environments [21.493664174262737]
本稿では,拡張現実(AR)ヘッドセットにおけるオンライン音声強調の実用的応答・性能認識開発について述べる。
これは、実際の騒々しいエコー環境(例えばカクテルパーティー)における会話を理解するのに役立つ。
この方法は、話者のうるさい残響音声を転写するための重み付き予測誤差(WPE)と呼ばれるブラインド残響法で用いられる。
論文 参考訳(メタデータ) (2022-07-15T05:14:27Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - On End-to-end Multi-channel Time Domain Speech Separation in Reverberant
Environments [33.79711018198589]
本稿では,残響環境におけるマルチチャンネル時間領域音声分離手法を提案する。
完全な畳み込みニューラルネットワーク構造は、複数のマイク記録から直接音声を分離するために使われてきた。
残響が空間的特徴抽出に与える影響を低減するため, 残響前処理法が適用された。
論文 参考訳(メタデータ) (2020-11-11T18:25:07Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。