論文の概要: Improving Deep Attractor Network by BGRU and GMM for Speech Separation
- arxiv url: http://arxiv.org/abs/2308.03332v1
- Date: Mon, 7 Aug 2023 06:26:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 15:04:15.650353
- Title: Improving Deep Attractor Network by BGRU and GMM for Speech Separation
- Title(参考訳): 音声分離のためのBGRUとGMMによる深絞りネットワークの改善
- Authors: Rawad Melhem, Assef Jafar, Riad Hamadeh
- Abstract要約: Deep Attractor Network (DANet) は、音声分離分野における最先端技術である。
本稿では,BLSTMの代わりに双方向ゲーテッドニューラルネットワーク(BGRU)を用いて,単純化された強力なDANetモデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Attractor Network (DANet) is the state-of-the-art technique in speech
separation field, which uses Bidirectional Long Short-Term Memory (BLSTM), but
the complexity of the DANet model is very high. In this paper, a simplified and
powerful DANet model is proposed using Bidirectional Gated neural network
(BGRU) instead of BLSTM. The Gaussian Mixture Model (GMM) other than the
k-means was applied in DANet as a clustering algorithm to reduce the complexity
and increase the learning speed and accuracy. The metrics used in this paper
are Signal to Distortion Ratio (SDR), Signal to Interference Ratio (SIR),
Signal to Artifact Ratio (SAR), and Perceptual Evaluation Speech Quality (PESQ)
score. Two speaker mixture datasets from TIMIT corpus were prepared to evaluate
the proposed model, and the system achieved 12.3 dB and 2.94 for SDR and PESQ
scores respectively, which were better than the original DANet model. Other
improvements were 20.7% and 17.9% in the number of parameters and time
training, respectively. The model was applied on mixed Arabic speech signals
and the results were better than that in English.
- Abstract(参考訳): Deep Attractor Network (DANet) は、双方向長短期記憶(BLSTM)を用いた音声分離分野における最先端技術であるが、DANetモデルの複雑さは非常に高い。
本稿では,BLSTMの代わりに双方向ゲーテッドニューラルネットワーク(BGRU)を用いて,単純化された強力なDANetモデルを提案する。
k-means以外のガウス混合モデル (gmm) をクラスタリングアルゴリズムとしてdanetに適用し, 複雑性を低減し, 学習速度と精度を向上させる。
本稿では,SDR (Signal to Distortion Ratio) ,SIR (Signal to Interference Ratio) ,SAR (Signal to Artifact Ratio) ,PESQ (Perceptual Evaluation Speech Quality) を用いて測定した。
TIMITコーパスの2つの話者混合データセットを用いて提案モデルの評価を行い,従来のDANetモデルよりも優れたSDRとPSSQの12.3dBと2.94のスコアを得た。
その他の改善は、パラメータ数と時間トレーニングのそれぞれ20.7%と17.9%であった。
このモデルはアラビア語の混合音声信号に適用され,結果が英語よりも良好であった。
関連論文リスト
- Learning Load Balancing with GNN in MPTCP-Enabled Heterogeneous Networks [13.178956651532213]
本稿では,MP TCP 対応 HetNet の LB 問題に対処するグラフニューラルネットワーク (GNN) モデルを提案する。
従来のディープニューラルネットワーク(DNN)と比較して、提案したGNNベースのモデルには2つの重要な長所がある。
論文 参考訳(メタデータ) (2024-10-22T15:49:53Z) - Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。
本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文 参考訳(メタデータ) (2022-08-28T17:50:19Z) - Prediction of speech intelligibility with DNN-based performance measures [9.883633991083789]
本稿では,自動音声認識(ASR)に基づく音声認識モデルを提案する。
ディープニューラルネットワーク(DNN)の音素確率と、これらの確率から単語エラー率を推定するパフォーマンス指標を組み合わせる。
提案モデルはラベルベースモデルとほぼ同等に動作し,ベースラインモデルよりも精度の高い予測を行う。
論文 参考訳(メタデータ) (2022-03-17T08:05:38Z) - Parameter estimation for WMTI-Watson model of white matter using
encoder-decoder recurrent neural network [0.0]
本研究では,ラットおよびヒト脳のデータセット上でのNLLS,RNN法および多層パーセプトロン(MLP)の性能を評価する。
提案手法は,NLLSよりも計算時間を大幅に短縮できるという利点を示した。
論文 参考訳(メタデータ) (2022-03-01T16:33:15Z) - Novel Hybrid DNN Approaches for Speaker Verification in Emotional and
Stressful Talking Environments [1.0998375857698495]
この研究は、深層モデルと浅いアーキテクチャを組み合わせることで、新しいハイブリッド分類器を生み出した。
ディープニューラルネットワーク隠れマルコフモデル(DNN-HMM)、ディープニューラルネットワーク-ガウス混合モデル(DNN-GMM)、隠れマルコフモデル-ディープニューラルネットワーク(HMM-DNN)の4つの異なるハイブリッドモデルが利用された。
その結果、HMM-DNNは、EER(Equal error rate)およびAUC(Equal curve)評価指標で他の全てのハイブリッドモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-12-26T10:47:14Z) - SignalNet: A Low Resolution Sinusoid Decomposition and Estimation
Network [79.04274563889548]
本稿では,正弦波数を検出するニューラルネットワークアーキテクチャであるSignalNetを提案する。
基礎となるデータ分布と比較して,ネットワークの結果を比較するための最悪の学習しきい値を導入する。
シミュレーションでは、我々のアルゴリズムは常に3ビットデータのしきい値を超えることができるが、しばしば1ビットデータのしきい値を超えることはできない。
論文 参考訳(メタデータ) (2021-06-10T04:21:20Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Deep Networks for Direction-of-Arrival Estimation in Low SNR [89.45026632977456]
我々は,真の配列多様体行列の変異チャネルデータから学習した畳み込みニューラルネットワーク(CNN)を導入する。
我々は低SNR体制でCNNを訓練し、すべてのSNRでDoAを予測する。
私たちの堅牢なソリューションは、ワイヤレスアレイセンサーから音響マイクロフォンやソナーまで、いくつかの分野に適用できます。
論文 参考訳(メタデータ) (2020-11-17T12:52:18Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。