論文の概要: Single microphone speaker extraction using unified time-frequency
Siamese-Unet
- arxiv url: http://arxiv.org/abs/2203.02941v1
- Date: Sun, 6 Mar 2022 11:45:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-08 18:43:19.894423
- Title: Single microphone speaker extraction using unified time-frequency
Siamese-Unet
- Title(参考訳): 統合時間周波数シームズ-Unetを用いた単一マイクロホンスピーカ抽出
- Authors: Aviad Eisenberg, Sharon Gannot and Shlomo E. Chazan
- Abstract要約: 両表現を用いたSiamese-Unetアーキテクチャを提案する。
周波数領域にシームエンコーダを適用し、ノイズスペクトルと基準スペクトルの埋め込みを推定する。
このモデルは、時間領域情報を活用するために、SI-SDR(Scale-Invariant Signal-to-Distortion Ratio)損失をトレーニングする。
- 参考スコア(独自算出の注目度): 22.224446472612197
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this paper we present a unified time-frequency method for speaker
extraction in clean and noisy conditions. Given a mixed signal, along with a
reference signal, the common approaches for extracting the desired speaker are
either applied in the time-domain or in the frequency-domain. In our approach,
we propose a Siamese-Unet architecture that uses both representations. The
Siamese encoders are applied in the frequency-domain to infer the embedding of
the noisy and reference spectra, respectively. The concatenated representations
are then fed into the decoder to estimate the real and imaginary components of
the desired speaker, which are then inverse-transformed to the time-domain. The
model is trained with the Scale-Invariant Signal-to-Distortion Ratio (SI-SDR)
loss to exploit the time-domain information. The time-domain loss is also
regularized with frequency-domain loss to preserve the speech patterns.
Experimental results demonstrate that the unified approach is not only very
easy to train, but also provides superior results as compared with
state-of-the-art (SOTA) Blind Source Separation (BSS) methods, as well as
commonly used speaker extraction approach.
- Abstract(参考訳): 本稿では,清浄・騒音環境における話者抽出のための時間周波数統合手法を提案する。
混合信号と参照信号が与えられた場合、所望の話者を抽出するための一般的なアプローチは、時間領域または周波数領域に適用される。
提案手法では,両表現を用いたSiamese-Unetアーキテクチャを提案する。
siameseエンコーダは周波数領域に適用され、それぞれノイズスペクトルと参照スペクトルの埋め込みを推定する。
連結表現はデコーダに入力され、所望の話者の実成分と虚成分を推定し、時間領域に逆変換する。
このモデルは、時間領域情報を活用するために、SI-SDR(Scale-Invariant Signal-to-Distortion Ratio)損失をトレーニングする。
時間領域損失は、音声パターンを保存するために周波数領域損失と共に正規化される。
実験結果から, 統合手法は訓練が容易であるだけでなく, 最先端(SOTA)ブラインドソース分離法 (BSS) や, 一般的な話者抽出法と比較して優れた結果が得られることがわかった。
関連論文リスト
- RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation [18.93255531121519]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
論文 参考訳(メタデータ) (2023-09-29T12:38:00Z) - Multi-View Frequency-Attention Alternative to CNN Frontends for
Automatic Speech Recognition [12.980843126905203]
周波数に対するグローバルな関心は、局所的な畳み込みよりも有益であることを示す。
畳み込み型ニューラルネットワークトランスデューサに代えて,生産規模での単語誤り率を2.4%削減する。
論文 参考訳(メタデータ) (2023-06-12T08:37:36Z) - Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis [1.4277428617774877]
フーリエスペクトル係数を直接生成する新しいモデルであるVocosを提案する。
計算効率を大幅に向上し、時間領域のニューラルネットワークのボコーディングアプローチに比べて、桁違いにスピードが向上する。
論文 参考訳(メタデータ) (2023-06-01T15:40:32Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Time-Frequency Analysis based Deep Interference Classification for
Frequency Hopping System [2.8123846032806035]
干渉分類は、認証された通信システムを保護する上で重要な役割を果たす。
本稿では,周波数ホッピング通信システムにおける干渉分類問題について述べる。
周波数ホッピング系における多重干渉の可能性を考慮すると、線形および双線形変換に基づく複合時間周波数解析法が採用されている。
論文 参考訳(メタデータ) (2021-07-21T14:22:40Z) - SoundDet: Polyphonic Sound Event Detection and Localization from Raw
Waveform [48.68714598985078]
SoundDetは、多音動音イベントの検出とローカライゼーションのためのエンドツーエンドのトレーニング可能で軽量なフレームワークである。
SoundDetは、生のマルチチャネル波形を直接消費し、検出すべき時間音イベントを完全な音オブジェクトとして扱う。
次に、時間的変化が大きいイベントを予測する上での課題に対処するため、高密度な音響提案イベントマップを構築する。
論文 参考訳(メタデータ) (2021-06-13T11:43:41Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - Robust Multi-channel Speech Recognition using Frequency Aligned Network [23.397670239950187]
我々は、堅牢な自動音声認識に周波数整列ネットワークを用いる。
周波数整列ネットワークを用いたマルチチャネル音響モデルでは,単語誤り率を最大で18%低減することを示す。
論文 参考訳(メタデータ) (2020-02-06T21:47:39Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。