論文の概要: End-to-End Multi-Microphone Speaker Extraction Using Relative Transfer Functions
- arxiv url: http://arxiv.org/abs/2502.06285v1
- Date: Mon, 10 Feb 2025 09:27:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:30:10.109660
- Title: End-to-End Multi-Microphone Speaker Extraction Using Relative Transfer Functions
- Title(参考訳): 相対伝達関数を用いたエンド・ツー・エンドマルチマイクロホン話者抽出
- Authors: Aviad Eisenberg, Sharon Gannot, Shlomo E. Chazan,
- Abstract要約: 本稿では,残響環境における複数話者と指向性雑音を含む混合音から所望の話者を抽出するマルチマイクロホン手法を提案する。
音響シナリオの挑戦による実験結果から,空間的手がかりを用いることでスペクトルベースのキューよりも優れた性能が得られることが示され,その瞬間的な性能はDOAベースの空間的キューより優れていた。
- 参考スコア(独自算出の注目度): 16.402201426448006
- License:
- Abstract: This paper introduces a multi-microphone method for extracting a desired speaker from a mixture involving multiple speakers and directional noise in a reverberant environment. In this work, we propose leveraging the instantaneous relative transfer function (RTF), estimated from a reference utterance recorded in the same position as the desired source. The effectiveness of the RTF-based spatial cue is compared with direction of arrival (DOA)-based spatial cue and the conventional spectral embedding. Experimental results in challenging acoustic scenarios demonstrate that using spatial cues yields better performance than the spectral-based cue and that the instantaneous RTF outperforms the DOA-based spatial cue.
- Abstract(参考訳): 本稿では,残響環境における複数話者と指向性雑音を含む混合音から所望の話者を抽出するマルチマイクロホン手法を提案する。
本研究では、所望のソースと同じ位置で記録された参照発話から推定される、瞬時相対伝達関数(RTF)を活用することを提案する。
RTFに基づく空間キューの有効性は、到着方向(DOA)ベースの空間キューと従来のスペクトル埋め込みとを比較した。
音響シナリオの挑戦による実験結果から,空間的手がかりを用いることでスペクトルベースのキューよりも性能が向上し,瞬時RTFがDOAベースの空間的キューより優れていることが示された。
関連論文リスト
- HRTF Estimation using a Score-based Prior [20.62078965099636]
本稿では,スコアベース拡散モデルに基づく頭部伝達関数推定手法を提案する。
HRTFは人間の発話などの自然な励起信号を用いて残響環境で推定される。
HRTFにおける高周波コンテンツの大きなばらつきを,拡散前の拡散が考慮できることを示す。
論文 参考訳(メタデータ) (2024-10-02T14:00:41Z) - Attention-Driven Multichannel Speech Enhancement in Moving Sound Source
Scenarios [11.811571392419324]
音声強調アルゴリズムは典型的に静止音源を仮定するが、これは現実との共通のミスマッチであり、現実のシナリオではその性能を制限している。
本稿では,動的設定のための注意駆動型空間フィルタリング技術について述べる。
論文 参考訳(メタデータ) (2023-12-17T16:12:35Z) - Neural Acoustic Context Field: Rendering Realistic Room Impulse Response
With Neural Fields [61.07542274267568]
このレターでは、音声シーンをパラメータ化するためのNACFと呼ばれる新しいニューラルネットワークコンテキストフィールドアプローチを提案する。
RIRのユニークな性質により、時間相関モジュールとマルチスケールエネルギー崩壊基準を設計する。
実験の結果,NACFは既存のフィールドベース手法よりも顕著なマージンで優れていた。
論文 参考訳(メタデータ) (2023-09-27T19:50:50Z) - Multi-channel Speech Separation Using Spatially Selective Deep
Non-linear Filters [21.672683390080106]
複数話者による複数チャンネル分離タスクにおいて、混合音から各音声信号を復元することを目的とする。
本研究では,深層ニューラルネットワークを用いた空間選択的フィルタ(SSF)を提案する。
論文 参考訳(メタデータ) (2023-04-24T11:44:00Z) - Blind Acoustic Room Parameter Estimation Using Phase Features [4.473249957074495]
本稿では,新しい位相関連機能を活用して,近年のアプローチを拡張し,いわゆる「残響指紋」パラメータを盲目的に推定する。
これらの特徴の追加は、マグニチュードベースのスペクトル特徴のみに依存する既存の手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2023-03-13T20:05:41Z) - Deep Reinforcement Learning for IRS Phase Shift Design in
Spatiotemporally Correlated Environments [93.30657979626858]
本稿では,チャネル相関と目的地動きを考慮したディープアクター批判アルゴリズムを提案する。
チャネルが時間的に相関している場合、コンバージェンスを抑制する方法において、関数近似を伴う状態表現にSNRを組み込むことが示される。
論文 参考訳(メタデータ) (2022-11-02T22:07:36Z) - Few-Shot Audio-Visual Learning of Environment Acoustics [89.16560042178523]
室内インパルス応答 (RIR) 関数は、周囲の物理的環境がリスナーが聴く音をどう変換するかをキャプチャする。
我々は、空間で観測された画像とエコーのスパースセットに基づいて、RIRを推測する方法を探る。
3次元環境のための最先端オーディオ視覚シミュレータを用いた実験において,本手法が任意のRIRを生成できることを実証した。
論文 参考訳(メタデータ) (2022-06-08T16:38:24Z) - DCASE 2021 Task 3: Spectrotemporally-aligned Features for Polyphonic
Sound Event Localization and Detection [16.18806719313959]
本稿では,信号パワーと音源方向の正確な時間周波数マッピングが可能な空間キュー拡張対数分光法(SALSA)を提案する。
この新機能で訓練されたディープラーニングベースのモデルでは,DCASEチャレンジのベースラインを大きなマージンで上回りました。
論文 参考訳(メタデータ) (2021-06-29T09:18:30Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Improving Stability of LS-GANs for Audio and Speech Signals [70.15099665710336]
このベクトル空間で計算された正規性からジェネレータ最適化の定式化への切り離しの符号化は、より包括的な分光図を作成するのに役立つことを示す。
本手法をベースラインGANと比較してモード崩壊の少ないトレーニングにおける安定性向上に有効であることを示す。
論文 参考訳(メタデータ) (2020-08-12T17:41:25Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。