論文の概要: Speech enhancement with mixture-of-deep-experts with clean clustering
pre-training
- arxiv url: http://arxiv.org/abs/2102.06034v1
- Date: Thu, 11 Feb 2021 14:18:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-12 15:43:59.296008
- Title: Speech enhancement with mixture-of-deep-experts with clean clustering
pre-training
- Title(参考訳): クリーンクラスタリングによる深層混合学習による音声強調
- Authors: Shlomo E. Chazan, Jacob Goldberger, Sharon Gannot
- Abstract要約: 本稿では,マイクロホン音声強調のためのニューラルネットワークアーキテクチャであるDeep Expert (MoDE)について述べる。
我々のアーキテクチャはディープニューラルネットワーク(DNN)で構成されており、それぞれが音素のような異なる音声スペクトルパターンの「エキスパート」である。
- 参考スコア(独自算出の注目度): 39.04317877999891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study we present a mixture of deep experts (MoDE) neural-network
architecture for single microphone speech enhancement. Our architecture
comprises a set of deep neural networks (DNNs), each of which is an 'expert' in
a different speech spectral pattern such as phoneme. A gating DNN is
responsible for the latent variables which are the weights assigned to each
expert's output given a speech segment. The experts estimate a mask from the
noisy input and the final mask is then obtained as a weighted average of the
experts' estimates, with the weights determined by the gating DNN. A soft
spectral attenuation, based on the estimated mask, is then applied to enhance
the noisy speech signal. As a byproduct, we gain reduction at the complexity in
test time. We show that the experts specialization allows better robustness to
unfamiliar noise types.
- Abstract(参考訳): 本研究では,マイクロホン音声強調のためのディープエキスパート(MoDE)ニューラルネットワークアーキテクチャの混合について述べる。
私たちのアーキテクチャは、深いニューラルネットワーク(DNN)のセットで構成され、それぞれが音素のような異なる音声スペクトルパターンの「専門家」です。
ゲーティングDNNは、音声セグメントが与えられた各専門家の出力に割り当てられた重みである潜在変数を担当します。
専門家は、騒々しい入力からマスクを推定し、最終的なマスクは、ゲーティングDNNによって決定された重量で、専門家の推定の重み付き平均として取得されます。
次に、推定されたマスクに基づいて柔らかいスペクトル減衰を適用し、騒々しい音声信号を強化する。
副産物として、私達はテスト時間の複雑さで減ります。
専門家の専門化により、不慣れなノイズタイプに対する堅牢性が向上します。
関連論文リスト
- Generalization Error Analysis for Sparse Mixture-of-Experts: A Preliminary Study [65.11303133775857]
Mixture-of-Experts (MoE)計算アマルガメート予測
Sparse MoEは、限られた数、あるいは1つの専門家だけを選択的に扱うことで、経験的に保存され、時にはパフォーマンスが向上する一方で、オーバーヘッドを大幅に削減する。
論文 参考訳(メタデータ) (2024-03-26T05:48:02Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Parallel Gated Neural Network With Attention Mechanism For Speech
Enhancement [0.0]
本稿では,特徴抽出ブロック (FEB) と補償拡張ブロック (ComEB) とマスクブロック (MB) からなる新しい単調音声強調システムを提案する。
Librispeech データセットを用いて実験を行い,提案モデルがESTOI と PESQ のスコアから,最近のモデルよりも優れた性能が得られることを示した。
論文 参考訳(メタデータ) (2022-10-26T06:42:19Z) - Sparsely-gated Mixture-of-Expert Layers for CNN Interpretability [3.021134753248103]
小さいゲートのMixture of Expert (MoE)層が大きなトランスのスケーリングに成功している。
本研究では,コンピュータビジョンタスクのCNNに対して,スパースMOE層を適用し,モデル解釈性への影響を解析する。
論文 参考訳(メタデータ) (2022-04-22T09:40:23Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - Learning spectro-temporal representations of complex sounds with
parameterized neural networks [16.270691619752288]
本稿では、Gaborカーネル(Learnable STRF)に基づく特定の分光時間変調を演算するパラメトリゼーションニューラルネットワーク層を提案する。
音声活動検出,話者照合,都市音響分類,ゼブラフィンチ呼出タイプの分類において,この層の予測能力を評価した。
この層は完全に解釈可能であるので、学習した分光時間変調の分布を記述するために定量的な尺度を用いた。
論文 参考訳(メタデータ) (2021-03-12T07:53:47Z) - Are you wearing a mask? Improving mask detection from speech using
augmentation by cycle-consistent GANs [24.182791316595576]
本稿では,音声からのマスク検出のための新しいデータ拡張手法を提案する。
提案手法は (i) GAN(Geneversarative Adrial Networks) の学習に基づく。
我々のデータ拡張アプローチは、他のベースラインや最先端の拡張手法よりも優れた結果をもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-17T20:46:50Z) - Sparse Mixture of Local Experts for Efficient Speech Enhancement [19.645016575334786]
本稿では,専門的ニューラルネットワークの効率的なアンサンブルを通して,音声を聴覚的に認識するためのディープラーニング手法について検討する。
タスクを重複しないサブプロブレムに分割することで、計算複雑性を低減しつつ、デノナイジング性能を向上させることができる。
以上の結果から,微調整されたアンサンブルネットワークは,一般のネットワークの発声能力を上回ることができることがわかった。
論文 参考訳(メタデータ) (2020-05-16T23:23:22Z) - SpEx: Multi-Scale Time Domain Speaker Extraction Network [89.00319878262005]
話者抽出は、ターゲット話者の声を複数話者環境から抽出することで、人間の選択的な聴覚的注意を模倣することを目的としている。
周波数領域の抽出を行い、抽出した大きさと推定位相スペクトルから時間領域信号を再構成することが一般的である。
本研究では,混合音声を音声信号を大域・位相スペクトルに分解する代わりに,マルチスケールの埋め込み係数に変換する時間領域話者抽出ネットワーク(SpEx)を提案する。
論文 参考訳(メタデータ) (2020-04-17T16:13:06Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。