論文の概要: Adaptive Rotary Steering with Joint Autoregression for Robust Extraction of Closely Moving Speakers in Dynamic Scenarios
- arxiv url: http://arxiv.org/abs/2601.12345v1
- Date: Sun, 18 Jan 2026 10:38:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.587416
- Title: Adaptive Rotary Steering with Joint Autoregression for Robust Extraction of Closely Moving Speakers in Dynamic Scenarios
- Title(参考訳): 動的シナリオにおける閉じた話者のロバスト抽出のための関節自己回帰を考慮した適応回転ステアリング
- Authors: Jakob Kienegger, Timo Gerkmann,
- Abstract要約: Ambisonicsにおける深部空間フィルタリングの最近の進歩は、静止多話者シナリオにおいて強い性能を示す。
我々は,この回転ステアリングを,目標の初期方向を条件としたインターリーブ付きトラッキングアルゴリズムを用いて自動化することを提案する。
付近の話者や交差する話者にとって、ロバストな追跡は難しくなり、空間的手がかりは強化にはあまり効果がない。
- 参考スコア(独自算出の注目度): 28.32055656460997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Latest advances in deep spatial filtering for Ambisonics demonstrate strong performance in stationary multi-speaker scenarios by rotating the sound field toward a target speaker prior to multi-channel enhancement. For applicability in dynamic acoustic conditions with moving speakers, we propose to automate this rotary steering using an interleaved tracking algorithm conditioned on the target's initial direction. However, for nearby or crossing speakers, robust tracking becomes difficult and spatial cues less effective for enhancement. By incorporating the processed recording as additional guide into both algorithms, our novel joint autoregressive framework leverages temporal-spectral correlations of speech to resolve spatially challenging speaker constellations. Consequently, our proposed method significantly improves tracking and enhancement of closely spaced speakers, consistently outperforming comparable non-autoregressive methods on a synthetic dataset. Real-world recordings complement these findings in complex scenarios with multiple speaker crossings and varying speaker-to-array distances.
- Abstract(参考訳): 多チャンネル化に先立って, 音場をターゲット話者に向けて回転させることにより, 静止多話者シナリオにおいて, 深部空間フィルタリングの最近の進歩が強い性能を示した。
移動型スピーカを用いた動的音響条件の適用性を検討するため,この回転ステアリングを目標の初期方向を条件としたインターリーブ付きトラッキングアルゴリズムを用いて自動化することを提案する。
しかし, 近接話者や交差話者の場合, 頑健な追跡が困難になり, 空間的手がかりの低減が図られる。
両アルゴリズムに処理記録を付加することにより,音声の時間-スペクトル相関を利用して空間的に難解な話者の星座を解消する。
その結果,提案手法は密接な空間を持つ話者の追跡と強化を著しく改善し,合成データセット上での非自己回帰的手法よりも一貫して優れていた。
実世界の記録は、複数の話者交差と様々な話者とアレイ距離を持つ複雑なシナリオでこれらの結果を補完する。
関連論文リスト
- SPUR: A Plug-and-Play Framework for Integrating Spatial Audio Understanding and Reasoning into Large Audio-Language Models [62.14165748145729]
本研究では,空間知覚を伴う大規模オーディオスピーカモデルを備えた,軽量なプラグイン・アプローチであるSPURを紹介する。
SPURは、 (i) チャネルを回転認識、リスナー中心の空間特徴にマッピングし、マルチモーダルアダプタを介して対象のLALMに統合する第1次アンビニクス(FOA)エンコーダと、 (ii) SPUR-Setは、オープンソースのFOA記録を制御されたシミュレーションと組み合わせた空間QAデータセットで、相対方向、標高、距離、および監督された空間推論の重複を強調する。
論文 参考訳(メタデータ) (2025-11-10T01:29:26Z) - Self-Steering Deep Non-Linear Spatially Selective Filters for Efficient Extraction of Moving Speakers under Weak Guidance [14.16697537117357]
代わりに粒子フィルタの形で低複雑さ追跡アルゴリズムを利用する新しい手法を提案する。
両アルゴリズムの自己回帰的相互作用が追跡精度を大幅に向上し,高い性能向上をもたらすことを示す。
論文 参考訳(メタデータ) (2025-07-03T16:54:56Z) - Speaker Embeddings to Improve Tracking of Intermittent and Moving Speakers [53.12031345322412]
話者埋め込みを用いた個人識別再割り当て後追跡を提案する。
ビームフォーミングは、話者埋め込みを計算するために、話者の位置に対する信号を強化するために使用される。
不活発な期間に話者の位置が変化するデータセット上で,提案した話者埋め込みに基づくアイデンティティ再割り当て手法の性能を評価する。
論文 参考訳(メタデータ) (2025-06-23T13:02:20Z) - Steering Deep Non-Linear Spatially Selective Filters for Weakly Guided Extraction of Moving Speakers in Dynamic Scenarios [15.736484513462973]
空間的ダイナミックなシナリオは、時間的に変化する空間的特徴とあいまいさを引き起こすため、かなり困難である。
本研究では,ターゲットの初期位置にのみ依存する弱誘導抽出手法を提案し,空間的動的シナリオに対処する。
自己のディープトラッキングアルゴリズムを導入し、合成データセット上で共同トレーニング戦略を開発することにより、空間的曖昧性の解消におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-20T15:43:55Z) - Leveraging Speaker Embeddings in End-to-End Neural Diarization for Two-Speaker Scenarios [0.9094127664014627]
エンドツーエンドのニューラルスピーカダイアリゼーションシステムは、音声重複を効果的に処理しながら、話者ダイアリゼーションタスクに対処することができる。
本研究は,話者識別能力を高めるため,エンド・ツー・エンドシステムへの話者情報埋め込みの導入について検討する。
論文 参考訳(メタデータ) (2024-07-01T14:26:28Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Towards Robust Speech-to-Text Adversarial Attack [78.5097679815944]
本稿では,DeepSpeech,Kaldi,Lingvoなど,最先端の音声テキストシステムに対する新たな逆アルゴリズムを提案する。
本手法は, 逆最適化定式化の従来の歪み条件の拡張を開発することに基づいている。
元のサンプルと反対のサンプルの分布の差を測定するこの測定値の最小化は、正統な音声記録のサブスペースに非常に近い作成信号に寄与する。
論文 参考訳(メタデータ) (2021-03-15T01:51:41Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。