論文の概要: Spatially Selective Deep Non-linear Filters for Speaker Extraction
- arxiv url: http://arxiv.org/abs/2211.02420v2
- Date: Thu, 23 Mar 2023 08:31:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 17:58:42.458724
- Title: Spatially Selective Deep Non-linear Filters for Speaker Extraction
- Title(参考訳): 空間選択的深部非線形フィルタによる話者抽出
- Authors: Kristina Tesch, Timo Gerkmann
- Abstract要約: 我々は任意の目標方向に操ることのできる深部結合型空間スペクトル非線形フィルタを開発した。
本研究では,本方式がベースライン方式よりも有効であることを示し,フィルタの柔軟性を性能的に向上させる。
- 参考スコア(独自算出の注目度): 21.422488450492434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a scenario with multiple persons talking simultaneously, the spatial
characteristics of the signals are the most distinct feature for extracting the
target signal. In this work, we develop a deep joint spatial-spectral
non-linear filter that can be steered in an arbitrary target direction. For
this we propose a simple and effective conditioning mechanism, which sets the
initial state of the filter's recurrent layers based on the target direction.
We show that this scheme is more effective than the baseline approach and
increases the flexibility of the filter at no performance cost. The resulting
spatially selective non-linear filters can also be used for speech separation
of an arbitrary number of speakers and enable very accurate multi-speaker
localization as we demonstrate in this paper.
- Abstract(参考訳): 複数の人が同時に話すシナリオにおいて、信号の空間的特性は、対象信号を抽出するための最も異なる特徴である。
本研究では,任意の目標方向に操舵可能な深部結合型空間スペクトル非線形フィルタの開発を行う。
そこで本研究では,目的方向に基づいてフィルタの繰り返し層の初期状態を設定する,シンプルで効果的な条件付け機構を提案する。
本手法はベースラインアプローチよりも効果的であり,性能コストを伴わずにフィルタの柔軟性を向上できることを示す。
得られた空間選択型非線形フィルタは任意の話者の音声分離にも利用でき、本論文で示すような高精度なマルチスピーカの局所化を可能にする。
関連論文リスト
- Phononic materials with effectively scale-separated hierarchical features using interpretable machine learning [57.91994916297646]
構造的階層的な音波材料は、複数の周波数範囲にわたるエラストダイナミック波と振動の有望なチューニング性を引き起こしている。
本稿では、各長さスケールの特徴が対象周波数範囲内の帯域ギャップをもたらす階層単位セルを求める。
提案手法は,階層型設計空間における新しい領域の探索を柔軟かつ効率的に行う手法である。
論文 参考訳(メタデータ) (2024-08-15T21:35:06Z) - Attention-Driven Multichannel Speech Enhancement in Moving Sound Source
Scenarios [11.811571392419324]
音声強調アルゴリズムは典型的に静止音源を仮定するが、これは現実との共通のミスマッチであり、現実のシナリオではその性能を制限している。
本稿では,動的設定のための注意駆動型空間フィルタリング技術について述べる。
論文 参考訳(メタデータ) (2023-12-17T16:12:35Z) - Multi-channel Speech Separation Using Spatially Selective Deep
Non-linear Filters [21.672683390080106]
複数話者による複数チャンネル分離タスクにおいて、混合音から各音声信号を復元することを目的とする。
本研究では,深層ニューラルネットワークを用いた空間選択的フィルタ(SSF)を提案する。
論文 参考訳(メタデータ) (2023-04-24T11:44:00Z) - Insights into Deep Non-linear Filters for Improved Multi-channel Speech
Enhancement [21.422488450492434]
従来の設定では、線形空間フィルタリング(ビームフォーミング)と単一チャネル後フィルタリングを個別に行うのが一般的である。
深層ニューラルネットワーク(DNN)を用いて、共同空間およびテンポスペクトル非線形フィルタを学習する傾向がある。
論文 参考訳(メタデータ) (2022-06-27T13:54:14Z) - On the Role of Spatial, Spectral, and Temporal Processing for DNN-based
Non-linear Multi-channel Speech Enhancement [18.133635752982105]
ディープニューラルネットワーク(DNN)を使用して、マルチチャネル音声強調のためのフィルタを直接学習することは、2つの重要な利点がある。
非線形空間フィルタリングは線形処理モデルから生じる潜在的な制約を克服することができる。
空間情報とテンポスペクトル情報の合同処理により、異なる情報源間の相互依存を利用することができる。
論文 参考訳(メタデータ) (2022-06-22T15:42:44Z) - Computational Doob's h-transforms for Online Filtering of Discretely
Observed Diffusions [65.74069050283998]
本研究では,Doobの$h$-transformsを近似する計算フレームワークを提案する。
提案手法は、最先端粒子フィルタよりも桁違いに効率的である。
論文 参考訳(メタデータ) (2022-06-07T15:03:05Z) - Combinations of Adaptive Filters [38.0505909175152]
適応フィルタの組み合わせは、分割と征服の原理を利用する。
特に、計算学習分野において、複数の学習アルゴリズムの出力を組み合わせるという課題が研究されている。
論文 参考訳(メタデータ) (2021-12-22T22:21:43Z) - Learning Versatile Convolution Filters for Efficient Visual Recognition [125.34595948003745]
本稿では,効率的な畳み込みニューラルネットワーク構築のための多目的フィルタを提案する。
本稿では,ネットワークの複雑性に関する理論的解析を行い,効率的な畳み込み手法を提案する。
ベンチマークデータセットとニューラルネットワークの実験結果は、我々の汎用フィルタが元のフィルタと同等の精度を達成できることを実証している。
論文 参考訳(メタデータ) (2021-09-20T06:07:14Z) - Unsharp Mask Guided Filtering [53.14430987860308]
本論文の目的は,フィルタ中の構造伝達の重要性を強調した画像フィルタリングである。
アンシャープマスキングにインスパイアされたガイドフィルタの新しい簡易な定式化を提案する。
我々の定式化は低域フィルタに先立ってフィルタを楽しみ、単一の係数を推定することで明示的な構造伝達を可能にする。
論文 参考訳(メタデータ) (2021-06-02T19:15:34Z) - Dependency Aware Filter Pruning [74.69495455411987]
重要でないフィルタを割ることは、推論コストを軽減するための効率的な方法である。
以前の作業は、その重み基準やそれに対応するバッチノームスケーリング要因に従ってフィルタをプルークする。
所望の空間性を達成するために,空間性誘導正規化を動的に制御する機構を提案する。
論文 参考訳(メタデータ) (2020-05-06T07:41:22Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。