論文の概要: Attention-Driven Multichannel Speech Enhancement in Moving Sound Source
Scenarios
- arxiv url: http://arxiv.org/abs/2312.10756v1
- Date: Sun, 17 Dec 2023 16:12:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 14:48:31.108531
- Title: Attention-Driven Multichannel Speech Enhancement in Moving Sound Source
Scenarios
- Title(参考訳): 移動音源シナリオにおける注意駆動型マルチチャネル音声強調
- Authors: Yuzhu Wang, Archontis Politis, Tuomas Virtanen
- Abstract要約: 音声強調アルゴリズムは典型的に静止音源を仮定するが、これは現実との共通のミスマッチであり、現実のシナリオではその性能を制限している。
本稿では,動的設定のための注意駆動型空間フィルタリング技術について述べる。
- 参考スコア(独自算出の注目度): 11.811571392419324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current multichannel speech enhancement algorithms typically assume a
stationary sound source, a common mismatch with reality that limits their
performance in real-world scenarios. This paper focuses on attention-driven
spatial filtering techniques designed for dynamic settings. Specifically, we
study the application of linear and nonlinear attention-based methods for
estimating time-varying spatial covariance matrices used to design the filters.
We also investigate the direct estimation of spatial filters by attention-based
methods without explicitly estimating spatial statistics. The clean speech
clips from WSJ0 are employed for simulating speech signals of moving speakers
in a reverberant environment. The experimental dataset is built by mixing the
simulated speech signals with multichannel real noise from CHiME-3. Evaluation
results show that the attention-driven approaches are robust and consistently
outperform conventional spatial filtering approaches in both static and dynamic
sound environments.
- Abstract(参考訳): 現在のマルチチャネル音声強調アルゴリズムは、通常静止音源を前提としており、現実のシナリオでの性能を制限する現実と共通するミスマッチである。
本稿では,動的設定に適した空間フィルタリング技術について述べる。
具体的には,フィルタの設計に用いる時変空間共分散行列の推定における線形および非線形注意に基づく手法の適用について検討する。
また,空間統計を明示的に見積もることなく,注意に基づく空間フィルタの直接推定についても検討した。
WSJ0のクリーン音声クリップは、残響環境における移動話者の音声信号をシミュレートするために使用される。
実験データセットは、chime-3からのシミュレーション音声信号とマルチチャネル実雑音を混合して構築する。
評価の結果,静音環境と動音環境の両方において,注意駆動アプローチは頑健であり,従来の空間フィルタリング手法よりも一貫して優れていた。
関連論文リスト
- ImmerseDiffusion: A Generative Spatial Audio Latent Diffusion Model [2.2927722373373247]
ImmerseDiffusionは音の空間的・時間的・環境的条件を条件とした3次元没入型音像を生成する。
論文 参考訳(メタデータ) (2024-10-19T02:28:53Z) - Sound event localization and classification using WASN in Outdoor Environment [2.234738672139924]
音声イベントのローカライゼーションと分類の方法は、通常は単一のマイクロホンアレイに依存する。
音源の位置とクラスを推定するために,複数の特徴と注意機構を用いた深層学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-03-29T11:44:14Z) - Spectral Enhanced Rectangle Transformer for Hyperspectral Image
Denoising [64.11157141177208]
ハイパースペクトル画像の空間的およびスペクトル的相関をモデル化するスペクトル拡張矩形変換器を提案する。
前者に対しては、長方形自己アテンションを水平および垂直に利用し、空間領域における非局所的類似性を捉える。
後者のために,空間スペクトル立方体の大域的低ランク特性を抽出し,雑音を抑制するスペクトル拡張モジュールを設計する。
論文 参考訳(メタデータ) (2023-04-03T09:42:13Z) - Implicit Neural Spatial Filtering for Multichannel Source Separation in
the Waveform Domain [131.74762114632404]
モデルはエンドツーエンドで訓練され、空間処理を暗黙的に実行する。
提案したモデルを実世界のデータセット上で評価し,そのモデルがオラクルビームフォーマの性能と一致することを示す。
論文 参考訳(メタデータ) (2022-06-30T17:13:01Z) - Insights into Deep Non-linear Filters for Improved Multi-channel Speech
Enhancement [21.422488450492434]
従来の設定では、線形空間フィルタリング(ビームフォーミング)と単一チャネル後フィルタリングを個別に行うのが一般的である。
深層ニューラルネットワーク(DNN)を用いて、共同空間およびテンポスペクトル非線形フィルタを学習する傾向がある。
論文 参考訳(メタデータ) (2022-06-27T13:54:14Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。