論文の概要: Steering Deep Non-Linear Spatially Selective Filters for Weakly Guided Extraction of Moving Speakers in Dynamic Scenarios
- arxiv url: http://arxiv.org/abs/2505.14517v1
- Date: Tue, 20 May 2025 15:43:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.472736
- Title: Steering Deep Non-Linear Spatially Selective Filters for Weakly Guided Extraction of Moving Speakers in Dynamic Scenarios
- Title(参考訳): 動的シナリオにおける移動話者の弱案内抽出のための深部非線形空間選択フィルタ
- Authors: Jakob Kienegger, Timo Gerkmann,
- Abstract要約: 空間的ダイナミックなシナリオは、時間的に変化する空間的特徴とあいまいさを引き起こすため、かなり困難である。
本研究では,ターゲットの初期位置にのみ依存する弱誘導抽出手法を提案し,空間的動的シナリオに対処する。
自己のディープトラッキングアルゴリズムを導入し、合成データセット上で共同トレーニング戦略を開発することにより、空間的曖昧性の解消におけるアプローチの有効性を実証する。
- 参考スコア(独自算出の注目度): 15.736484513462973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent speaker extraction methods using deep non-linear spatial filtering perform exceptionally well when the target direction is known and stationary. However, spatially dynamic scenarios are considerably more challenging due to time-varying spatial features and arising ambiguities, e.g. when moving speakers cross. While in a static scenario it may be easy for a user to point to the target's direction, manually tracking a moving speaker is impractical. Instead of relying on accurate time-dependent directional cues, which we refer to as strong guidance, in this paper we propose a weakly guided extraction method solely depending on the target's initial position to cope with spatial dynamic scenarios. By incorporating our own deep tracking algorithm and developing a joint training strategy on a synthetic dataset, we demonstrate the proficiency of our approach in resolving spatial ambiguities and even outperform a mismatched, but strongly guided extraction method.
- Abstract(参考訳): 深い非線形空間フィルタリングを用いた最近の話者抽出法は、目標方向が知られ静止している場合に非常によく機能する。
しかし、時相の空間的特徴や、移動話者が交差するようなあいまいさを生じるため、空間的ダイナミックなシナリオは、かなり困難である。
静的なシナリオでは、ユーザがターゲットの方向を指差すのは簡単だが、手動で動くスピーカーを追跡するのは現実的ではない。
本論文では, 時間依存方向の正確な手がかりに頼るのではなく, ターゲットの初期位置にのみ依存する弱誘導抽出法を提案し, 空間的動的シナリオに対処する。
自己の深層追跡アルゴリズムを導入し, 合成データセットに共同学習戦略を構築することにより, 空間的曖昧性を解消し, ミスマッチした, 強力なガイド付き抽出方法よりも優れていることを示す。
関連論文リスト
- Seurat: From Moving Points to Depth [66.65189052568209]
本研究では,2次元軌跡の空間的関係と時間的変化を調べ,相対的な深度を推定する手法を提案する。
提案手法は,様々な領域にわたる時間的スムーズかつ高精度な深度予測を実現する。
論文 参考訳(メタデータ) (2025-04-20T17:37:02Z) - Learning Where to Look: Self-supervised Viewpoint Selection for Active Localization using Geometrical Information [68.10033984296247]
本稿では, 位置決めの精度を高めるために, 視点選択の重要性を強調し, アクティブな位置決め領域について検討する。
私たちのコントリビューションは、リアルタイム操作用に設計されたシンプルなアーキテクチャ、自己教師付きデータトレーニング方法、および実世界のロボティクスアプリケーションに適した計画フレームワークにマップを一貫して統合する能力による、データ駆動型アプローチの使用に関するものです。
論文 参考訳(メタデータ) (2024-07-22T12:32:09Z) - Self-Supervised Class-Agnostic Motion Prediction with Spatial and Temporal Consistency Regularizations [53.797896854533384]
クラスに依存しない動き予測法は点雲全体の動きを直接予測する。
既存のほとんどのメソッドは、完全に教師付き学習に依存しているが、ポイントクラウドデータの手作業によるラベル付けは、手間と時間を要する。
3つの簡単な空間的・時間的正則化損失を導入し,自己指導型学習プロセスの効率化を図る。
論文 参考訳(メタデータ) (2024-03-20T02:58:45Z) - Attention-Driven Multichannel Speech Enhancement in Moving Sound Source
Scenarios [11.811571392419324]
音声強調アルゴリズムは典型的に静止音源を仮定するが、これは現実との共通のミスマッチであり、現実のシナリオではその性能を制限している。
本稿では,動的設定のための注意駆動型空間フィルタリング技術について述べる。
論文 参考訳(メタデータ) (2023-12-17T16:12:35Z) - Learning Representative Trajectories of Dynamical Systems via
Domain-Adaptive Imitation [0.0]
ドメイン適応軌道模倣のための深層強化学習エージェントDATIを提案する。
実験の結果,DATIは模擬学習と最適制御のベースライン手法よりも優れていることがわかった。
実世界のシナリオへの一般化は、海上交通における異常な動きパターンの発見を通じて示される。
論文 参考訳(メタデータ) (2023-04-19T15:53:48Z) - Spatially Selective Deep Non-linear Filters for Speaker Extraction [21.422488450492434]
我々は任意の目標方向に操ることのできる深部結合型空間スペクトル非線形フィルタを開発した。
本研究では,本方式がベースライン方式よりも有効であることを示し,フィルタの柔軟性を性能的に向上させる。
論文 参考訳(メタデータ) (2022-11-04T12:54:06Z) - Pre-training General Trajectory Embeddings with Maximum Multi-view
Entropy Coding [36.18788551389281]
軌道埋め込みはタスク性能を向上させることができるが、高い計算コストを発生させ、限られたトレーニングデータ可用性に直面する可能性がある。
既存の軌道埋め込み手法は、特定の下流タスクに対するバイアスによる一般的な埋め込み学習の難しさに直面している。
一般的な包括的軌跡埋め込み学習のための多視点エントロピー符号化(MMTEC)を提案する。
論文 参考訳(メタデータ) (2022-07-29T08:16:20Z) - Deep Shells: Unsupervised Shape Correspondence with Optimal Transport [52.646396621449]
本稿では,3次元形状対応のための教師なし学習手法を提案する。
提案手法は,複数のデータセット上での最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-10-28T22:24:07Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。