論文の概要: Informed Source Extraction With Application to Acoustic Echo Reduction
- arxiv url: http://arxiv.org/abs/2011.04569v4
- Date: Tue, 26 Oct 2021 14:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 02:10:47.873185
- Title: Informed Source Extraction With Application to Acoustic Echo Reduction
- Title(参考訳): インフォームド音源抽出と音響エコー低減への応用
- Authors: Mohamed Elminshawi, Wolfgang Mack, and Emanu\"el A. P. Habets
- Abstract要約: ディープラーニング手法は、ターゲット話者が発する参照スニペットを単一の埋め込みベクトルにマッピングする話者識別モデルを活用する。
本稿では,参照信号の時間的ダイナミクスを捉えた時間変化源判別モデルを提案する。
実験結果から,提案手法は音響エコー低減シナリオに適用した場合の抽出性能を著しく向上することが示された。
- 参考スコア(独自算出の注目度): 8.296684637620553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Informed speaker extraction aims to extract a target speech signal from a
mixture of sources given prior knowledge about the desired speaker. Recent deep
learning-based methods leverage a speaker discriminative model that maps a
reference snippet uttered by the target speaker into a single embedding vector
that encapsulates the characteristics of the target speaker. However, such
modeling deliberately neglects the time-varying properties of the reference
signal. In this work, we assume that a reference signal is available that is
temporally correlated with the target signal. To take this correlation into
account, we propose a time-varying source discriminative model that captures
the temporal dynamics of the reference signal. We also show that existing
methods and the proposed method can be generalized to non-speech sources as
well. Experimental results demonstrate that the proposed method significantly
improves the extraction performance when applied in an acoustic echo reduction
scenario.
- Abstract(参考訳): インフォームド話者抽出は、所望の話者に関する事前知識が与えられた音源から対象の音声信号を抽出することを目的としている。
最近のディープラーニングに基づく方法は、対象話者が発する参照スニペットを、対象話者の特性をカプセル化する単一の埋め込みベクトルにマッピングする話者識別モデルを活用する。
しかし、そのようなモデリングは基準信号の時間変化特性を意図的に無視する。
本研究では,対象信号と時間的相関のある参照信号が存在することを仮定する。
この相関を考慮に入れ,基準信号の時間的ダイナミクスを捉えた時間変動源判別モデルを提案する。
また,既存の手法と提案手法が非音声ソースにも一般化可能であることを示す。
実験の結果,提案手法は音響エコー低減シナリオで適用した場合,抽出性能が著しく向上することがわかった。
関連論文リスト
- Acoustic-based 3D Human Pose Estimation Robust to Human Position [16.0759003139539]
既存のアクティブ・アコースティック・センシング・ベースの3次元ポーズ推定手法は、ターゲットのユーザがスピーカとマイクの線に沿って位置していることを暗黙的に仮定する。
人体による音の反射や回折は、音の妨害に比べて微妙な音響信号の変化を引き起こすため、既存のモデルは、この線から逸脱した被験者の精度を著しく低下させる。
この制限を克服するために,位置判別器と残響耐性モデルからなる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-08T15:56:12Z) - Diffusion Posterior Sampling for Informed Single-Channel Dereverberation [15.16865739526702]
拡散モデルを用いた条件生成に基づく情報単一チャネルのデバーベレーション手法を提案する。
室内インパルス応答の知識により、逆拡散により無響発話が生成される。
提案手法は, 計測ノイズに対して, 最先端のインフォメーション・シングルチャネル・デバベーション法に比べ, かなり頑健である。
論文 参考訳(メタデータ) (2023-06-21T14:14:05Z) - Zero-shot text-to-speech synthesis conditioned using self-supervised
speech representation model [13.572330725278066]
提案手法の新たなポイントは、大量のデータで訓練された音声表現から組込みベクトルを得るためにSSLモデルを直接利用することである。
この不整合埋め込みにより、未知話者の再生性能が向上し、異なる音声によるリズム伝達が実現される。
論文 参考訳(メタデータ) (2023-04-24T10:15:58Z) - Joint speaker diarisation and tracking in switching state-space model [51.58295550366401]
本稿では,統合モデル内で共同でダイアリゼーションを行いながら,話者の動きを明示的に追跡することを提案する。
隠れ状態が現在のアクティブ話者の身元と予測されたすべての話者の位置を表現する状態空間モデルを提案する。
Microsoftリッチミーティングの書き起こしタスクの実験は、提案された共同位置追跡とダイアリゼーションアプローチが、位置情報を使用する他の方法と相容れない性能を発揮することを示している。
論文 参考訳(メタデータ) (2021-09-23T04:43:58Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Personalized Keyphrase Detection using Speaker and Environment
Information [24.766475943042202]
単語からなるフレーズを大きな語彙から正確に検出するために、簡単にカスタマイズできるストリーミングキーフレーズ検出システムを紹介します。
本システムは,エンドツーエンドで訓練された自動音声認識(ASR)モデルと,テキスト非依存話者検証モデルを用いて実装される。
論文 参考訳(メタデータ) (2021-04-28T18:50:19Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z) - Open-set Short Utterance Forensic Speaker Verification using
Teacher-Student Network with Explicit Inductive Bias [59.788358876316295]
そこで本研究では,小規模の法定フィールドデータセット上での話者検証を改善するためのパイプラインソリューションを提案する。
大規模領域外データセットを活用することで,教師学習のための知識蒸留に基づく目的関数を提案する。
提案する目的関数は,短時間の発話における教師学生の学習性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2020-09-21T00:58:40Z) - Dereverberation using joint estimation of dry speech signal and acoustic
system [3.5131188669634885]
音声のデバーベレーションは、信号から時間不変インパルス応答フィルタの品質劣化効果を除去することを目的としている。
本報告では, ドライ音声信号と室内インパルス応答の同時推定を含む, 発声除去へのアプローチについて述べる。
論文 参考訳(メタデータ) (2020-07-24T15:33:08Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。