論文の概要: Sparse Mixture of Local Experts for Efficient Speech Enhancement
- arxiv url: http://arxiv.org/abs/2005.08128v1
- Date: Sat, 16 May 2020 23:23:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 14:08:36.313223
- Title: Sparse Mixture of Local Experts for Efficient Speech Enhancement
- Title(参考訳): 音声強調のための局所的エキスパートのスパース混合
- Authors: Aswin Sivaraman, Minje Kim
- Abstract要約: 本稿では,専門的ニューラルネットワークの効率的なアンサンブルを通して,音声を聴覚的に認識するためのディープラーニング手法について検討する。
タスクを重複しないサブプロブレムに分割することで、計算複雑性を低減しつつ、デノナイジング性能を向上させることができる。
以上の結果から,微調整されたアンサンブルネットワークは,一般のネットワークの発声能力を上回ることができることがわかった。
- 参考スコア(独自算出の注目度): 19.645016575334786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate a deep learning approach for speech denoising
through an efficient ensemble of specialist neural networks. By splitting up
the speech denoising task into non-overlapping subproblems and introducing a
classifier, we are able to improve denoising performance while also reducing
computational complexity. More specifically, the proposed model incorporates a
gating network which assigns noisy speech signals to an appropriate specialist
network based on either speech degradation level or speaker gender. In our
experiments, a baseline recurrent network is compared against an ensemble of
similarly-designed smaller recurrent networks regulated by the auxiliary gating
network. Using stochastically generated batches from a large noisy speech
corpus, the proposed model learns to estimate a time-frequency masking matrix
based on the magnitude spectrogram of an input mixture signal. Both baseline
and specialist networks are trained to estimate the ideal ratio mask, while the
gating network is trained to perform subproblem classification. Our findings
demonstrate that a fine-tuned ensemble network is able to exceed the speech
denoising capabilities of a generalist network, doing so with fewer model
parameters.
- Abstract(参考訳): 本稿では,専門的ニューラルネットワークの効率的なアンサンブルを通した音声認識の深層学習手法について検討する。
音声認識タスクを重複しない部分問題に分割し、分類器を導入することで、計算複雑性を低減しつつ、雑音化性能を向上させることができる。
より具体的には、提案モデルは、雑音の多い音声信号を音声劣化レベルまたは話者性別に基づいて適切な専門的ネットワークに割り当てるゲーティングネットワークを組み込んでいる。
本実験では, 補助ゲーティングネットワークによって制御される小型リカレントネットワークのアンサンブルに対して, ベースラインリカレントネットワークを比較した。
提案モデルは,大雑音音声コーパスから統計的に生成したバッチを用いて,入力混合信号の大きさスペクトルに基づいて時間周波数マスキング行列を推定する。
ベースラインおよびスペシャリストネットワークは理想比マスクを推定するために訓練され、ゲーティングネットワークはサブプロブレム分類を行うために訓練される。
実験結果から,微調整されたアンサンブルネットワークは,より少ないモデルパラメータで,ジェネリストネットワークの発声能力を上回ることができることがわかった。
関連論文リスト
- Unsupervised Speaker Diarization in Distributed IoT Networks Using Federated Learning [2.3076690318595676]
本稿では,ネットワーク型IoTオーディオデバイスを対象とした,計算効率のよい分散話者ダイアリゼーションフレームワークを提案する。
フェデレートラーニングモデルは、トレーニングのための大規模なオーディオデータベースを必要とせずに、会話に参加する参加者を特定することができる。
話者埋め込みのコサイン類似性に依存するフェデレートラーニングモデルに対して、教師なしオンライン更新機構を提案する。
論文 参考訳(メタデータ) (2024-04-16T18:40:28Z) - Training neural networks with structured noise improves classification and generalization [0.0]
ノイズの多いトレーニングデータに構造を加えることで,アルゴリズムの性能が大幅に向上することを示す。
また,Hebbian Unlearning(ヘビアン・アンラーニング・ルール)と呼ばれる規則は,雑音が最大値である場合のトレーニング・ウィズ・ノイズ・アルゴリズムと一致することを証明した。
論文 参考訳(メタデータ) (2023-02-26T22:10:23Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - MFA: TDNN with Multi-scale Frequency-channel Attention for
Text-independent Speaker Verification with Short Utterances [94.70787497137854]
本稿では、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。
我々は,提案したMFAをVoxCelebデータベース上で評価し,提案したMFAを用いたフレームワークが,パラメータや複雑性を低減しつつ,最先端のパフォーマンスを実現することを確認した。
論文 参考訳(メタデータ) (2022-02-03T14:57:05Z) - Full-Reference Speech Quality Estimation with Attentional Siamese Neural
Networks [0.0]
深層学習アプローチを用いた完全参照音声品質予測モデルを提案する。
モデルは、シームス繰り返し畳み込みネットワークを介して参照と劣化した信号の特徴表現を決定する。
得られた特徴は、信号と注意機構を合わせるために使用され、最後に合成され、音声の全体的な品質を推定する。
論文 参考訳(メタデータ) (2021-05-03T12:38:25Z) - Simultaneous Denoising and Dereverberation Using Deep Embedding Features [64.58693911070228]
ディープ埋め込み特徴を用いた同時発声・発声同時学習法を提案する。
ノイズ発生段階では、DCネットワークを利用してノイズのないディープ埋込み特性を抽出する。
残響段階では、教師なしのK平均クラスタリングアルゴリズムの代わりに、別のニューラルネットワークを用いて無響音声を推定する。
論文 参考訳(メタデータ) (2020-04-06T06:34:01Z) - Untangling in Invariant Speech Recognition [17.996356271398295]
我々は、音声を認識するために訓練されたニューラルネットワークの中で、情報を解き放つ方法を研究する。
話者固有のニュアンス変動はネットワーク階層によって排除されるのに対し、タスク関連特性は後続の層で解消される。
計算の各段階におけるタスク関連特徴を効率よく抽出することにより,深部表現が時間的アンハングリングを行うことがわかった。
論文 参考訳(メタデータ) (2020-03-03T20:48:43Z) - Boosted Locality Sensitive Hashing: Discriminative Binary Codes for
Source Separation [19.72987718461291]
音声スペクトルを効率よく表現する局所性に敏感なハッシュ符号を学習するための適応的な促進手法を提案する。
我々は、複雑な機械学習モデルの代替として、学習したハッシュコードを単一チャネルの音声認識タスクに使用する。
論文 参考訳(メタデータ) (2020-02-14T20:10:00Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。