論文の概要: Self-Steering Deep Non-Linear Spatially Selective Filters for Efficient Extraction of Moving Speakers under Weak Guidance
- arxiv url: http://arxiv.org/abs/2507.02791v1
- Date: Thu, 03 Jul 2025 16:54:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.675028
- Title: Self-Steering Deep Non-Linear Spatially Selective Filters for Efficient Extraction of Moving Speakers under Weak Guidance
- Title(参考訳): 弱誘導下での移動話者の効率的な抽出のための自己学習型深部非線形空間選択フィルタ
- Authors: Jakob Kienegger, Alina Mannanova, Huajian Fang, Timo Gerkmann,
- Abstract要約: 代わりに粒子フィルタの形で低複雑さ追跡アルゴリズムを利用する新しい手法を提案する。
両アルゴリズムの自己回帰的相互作用が追跡精度を大幅に向上し,高い性能向上をもたらすことを示す。
- 参考スコア(独自算出の注目度): 14.16697537117357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works on deep non-linear spatially selective filters demonstrate exceptional enhancement performance with computationally lightweight architectures for stationary speakers of known directions. However, to maintain this performance in dynamic scenarios, resource-intensive data-driven tracking algorithms become necessary to provide precise spatial guidance conditioned on the initial direction of a target speaker. As this additional computational overhead hinders application in resource-constrained scenarios such as real-time speech enhancement, we present a novel strategy utilizing a low-complexity tracking algorithm in the form of a particle filter instead. Assuming a causal, sequential processing style, we introduce temporal feedback to leverage the enhanced speech signal of the spatially selective filter to compensate for the limited modeling capabilities of the particle filter. Evaluation on a synthetic dataset illustrates how the autoregressive interplay between both algorithms drastically improves tracking accuracy and leads to strong enhancement performance. A listening test with real-world recordings complements these findings by indicating a clear trend towards our proposed self-steering pipeline as preferred choice over comparable methods.
- Abstract(参考訳): 近年の非線形空間選択フィルタの研究は、既知の方向の定常話者のための計算軽量なアーキテクチャを用いて、優れた拡張性能を示す。
しかし、この性能を動的シナリオで維持するには、ターゲット話者の初期方向に応じて正確な空間ガイダンスを提供するために、リソース集約型データ駆動追跡アルゴリズムが必要である。
この計算オーバーヘッドが、リアルタイム音声強調などのリソース制約のあるシナリオへの応用を妨げるため、代わりに、低複雑さ追跡アルゴリズムを粒子フィルタの形で活用する新たな戦略を提案する。
因果的,シーケンシャルな処理スタイルを仮定し,時間的フィードバックを導入し,空間選択的フィルタの強調音声信号を利用して,粒子フィルタの限られたモデリング能力を補う。
合成データセットの評価は、両方のアルゴリズム間の自己回帰的相互作用がトラッキング精度を大幅に改善し、強い強化性能をもたらすことを示す。
実世界の録音を用いたリスニングテストでは,提案する自己操縦パイプラインが,比較対象の方法よりも好まれる傾向を示すことによって,これらの知見を補完する。
関連論文リスト
- Steering Deep Non-Linear Spatially Selective Filters for Weakly Guided Extraction of Moving Speakers in Dynamic Scenarios [15.736484513462973]
空間的ダイナミックなシナリオは、時間的に変化する空間的特徴とあいまいさを引き起こすため、かなり困難である。
本研究では,ターゲットの初期位置にのみ依存する弱誘導抽出手法を提案し,空間的動的シナリオに対処する。
自己のディープトラッキングアルゴリズムを導入し、合成データセット上で共同トレーニング戦略を開発することにより、空間的曖昧性の解消におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-20T15:43:55Z) - Event Signal Filtering via Probability Flux Estimation [58.31652473933809]
イベントは、非同期センシングを通じてシーンダイナミクスをキャプチャするための新しいパラダイムを提供するが、その固有のランダム性は、しばしば劣化した信号品質につながる。
したがって、イベント信号フィルタリングは、この内部ランダム性を低減し、多様な取得条件をまたいだ一貫した出力を確保することで、忠実性を高めるために不可欠である。
本稿ではイベント密度フローフィルタ(EDFilter)と呼ばれる生成オンラインフィルタリングフレームワークを紹介する。
実験では、イベントフィルタリング、スーパーレゾリューション、イベントベースの直接追跡といったタスクでEDFilterのパフォーマンスを検証する。
論文 参考訳(メタデータ) (2025-04-10T07:03:08Z) - Attention-Driven Multichannel Speech Enhancement in Moving Sound Source
Scenarios [11.811571392419324]
音声強調アルゴリズムは典型的に静止音源を仮定するが、これは現実との共通のミスマッチであり、現実のシナリオではその性能を制限している。
本稿では,動的設定のための注意駆動型空間フィルタリング技術について述べる。
論文 参考訳(メタデータ) (2023-12-17T16:12:35Z) - Spatially Selective Deep Non-linear Filters for Speaker Extraction [21.422488450492434]
我々は任意の目標方向に操ることのできる深部結合型空間スペクトル非線形フィルタを開発した。
本研究では,本方式がベースライン方式よりも有効であることを示し,フィルタの柔軟性を性能的に向上させる。
論文 参考訳(メタデータ) (2022-11-04T12:54:06Z) - Insights into Deep Non-linear Filters for Improved Multi-channel Speech
Enhancement [21.422488450492434]
従来の設定では、線形空間フィルタリング(ビームフォーミング)と単一チャネル後フィルタリングを個別に行うのが一般的である。
深層ニューラルネットワーク(DNN)を用いて、共同空間およびテンポスペクトル非線形フィルタを学習する傾向がある。
論文 参考訳(メタデータ) (2022-06-27T13:54:14Z) - Filter-enhanced MLP is All You Need for Sequential Recommendation [89.0974365344997]
オンラインプラットフォームでは、ログされたユーザの行動データはノイズを含まないことは避けられない。
周波数領域の雑音を減衰させる信号処理から,フィルタアルゴリズムのアイデアを借用する。
逐次レコメンデーションタスクのための学習可能なフィルタを備えたオールMLPモデルである textbfFMLP-Rec を提案する。
論文 参考訳(メタデータ) (2022-02-28T05:49:35Z) - Adaptive Low-Pass Filtering using Sliding Window Gaussian Processes [71.23286211775084]
ガウス過程回帰に基づく適応型低域通過フィルタを提案する。
本研究では,提案手法の誤差が一様境界であることを示す。
論文 参考訳(メタデータ) (2021-11-05T17:06:59Z) - Ensemble Wrapper Subsampling for Deep Modulation Classification [70.91089216571035]
受信した無線信号のサブサンプリングは、ハードウェア要件と信号処理アルゴリズムの計算コストを緩和するために重要である。
本稿では,無線通信システムにおけるディープラーニングを用いた自動変調分類のためのサブサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-05-10T06:11:13Z) - Tracking Performance of Online Stochastic Learners [57.14673504239551]
オンラインアルゴリズムは、大規模なバッチにデータを保存したり処理したりすることなく、リアルタイムで更新を計算できるため、大規模な学習環境で人気がある。
一定のステップサイズを使用すると、これらのアルゴリズムはデータやモデル特性などの問題パラメータのドリフトに適応し、適切な精度で最適解を追跡する能力を持つ。
定常仮定に基づく定常状態性能とランダムウォークモデルによるオンライン学習者の追跡性能の関連性を確立する。
論文 参考訳(メタデータ) (2020-04-04T14:16:27Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。