論文の概要: Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement
- arxiv url: http://arxiv.org/abs/2007.13024v2
- Date: Mon, 3 Aug 2020 00:07:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 00:35:15.814465
- Title: Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement
- Title(参考訳): 回帰型音声強調のための深層ハイブリッドテンソル-ベクトルネットワークアーキテクチャの検討
- Authors: Jun Qi, Hu Hu, Yannan Wang, Chao-Han Huck Yang, Sabato Marco
Siniscalchi, Chin-Hui Lee
- Abstract要約: 我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
- 参考スコア(独自算出の注目度): 53.47564132861866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates different trade-offs between the number of model
parameters and enhanced speech qualities by employing several deep
tensor-to-vector regression models for speech enhancement. We find that a
hybrid architecture, namely CNN-TT, is capable of maintaining a good quality
performance with a reduced model parameter size. CNN-TT is composed of several
convolutional layers at the bottom for feature extraction to improve speech
quality and a tensor-train (TT) output layer on the top to reduce model
parameters. We first derive a new upper bound on the generalization power of
the convolutional neural network (CNN) based vector-to-vector regression
models. Then, we provide experimental evidence on the Edinburgh noisy speech
corpus to demonstrate that, in single-channel speech enhancement, CNN
outperforms DNN at the expense of a small increment of model sizes. Besides,
CNN-TT slightly outperforms the CNN counterpart by utilizing only 32\% of the
CNN model parameters. Besides, further performance improvement can be attained
if the number of CNN-TT parameters is increased to 44\% of the CNN model size.
Finally, our experiments of multi-channel speech enhancement on a simulated
noisy WSJ0 corpus demonstrate that our proposed hybrid CNN-TT architecture
achieves better results than both DNN and CNN models in terms of
better-enhanced speech qualities and smaller parameter sizes.
- Abstract(参考訳): 本稿では,複数の深部テンソル-ベクトル回帰モデルを用いて,モデルパラメータ数と拡張音声品質のトレードオフについて検討する。
ハイブリッドアーキテクチャ、すなわちcnn-ttは、モデルパラメータサイズを小さくして優れた品質を維持することができる。
cnn-ttは、音声品質を改善するための特徴抽出のための下部の複数の畳み込み層と、モデルパラメータを減らすために上部のテンソルトレイン(tt)出力層から構成されている。
まず,畳み込みニューラルネットワーク(cnn)に基づくベクトル対ベクトル回帰モデルの一般化力に新たな上限を導出する。
そこで, 単チャンネル音声強調において, CNNはモデルサイズの増大を犠牲にしてDNNより優れていることを示すために, エジンバラ雑音音声コーパスの実験的証拠を提供する。
さらに、CNN-TTは、CNNモデルのパラメータの32倍しか利用せず、CNNよりも若干優れています。
また、cnn-ttパラメータの数をcnnモデルサイズの44\%に増やせば、さらなる性能向上を図ることができる。
最後に,WSJ0コーパスを模擬したマルチチャネル音声強調実験により,提案したハイブリッドCNN-TTアーキテクチャは,DNNモデルとCNNモデルより優れた結果が得られることを示した。
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - Patching Weak Convolutional Neural Network Models through Modularization
and Composition [19.986199290508925]
分類タスクのための畳み込みニューロンネットワーク(CNN)モデルは、しばしば不満足に機能する。
圧縮モジュラー化手法であるCNNSplitterを提案し、$N$クラス分類のための強力なCNNモデルを$N$より小さなCNNモジュールに分解する。
CNNSplitterは、モジュール化と構成により弱いCNNモデルにパッチを適用できることを示し、ロバストなCNNモデルを開発するための新しいソリューションを提供する。
論文 参考訳(メタデータ) (2022-09-11T15:26:16Z) - Exploiting Low-Rank Tensor-Train Deep Neural Networks Based on
Riemannian Gradient Descent With Illustrations of Speech Processing [74.31472195046099]
我々は、低ランクテンソルトレイン深層ニューラルネットワーク(TT-DNN)を用いて、エンドツーエンドのディープラーニングパイプライン、すなわちLR-TT-DNNを構築する。
LR-TT-DNNと畳み込みニューラルネットワーク(CNN)を組み合わせたハイブリッドモデルを構築し、性能を向上する。
我々の実証的な証拠は、モデルパラメータが少ないLR-TT-DNNとCNN+(LR-TT-DNN)モデルが、TT-DNNとCNN+(LR-TT-DNN)モデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-03-11T15:55:34Z) - Exploiting Hybrid Models of Tensor-Train Networks for Spoken Command
Recognition [9.262289183808035]
本研究の目的は,低複雑性音声コマンド認識(SCR)システムの設計である。
我々は、テンソルトレイン(TT)ネットワークの深いハイブリッドアーキテクチャを利用して、エンドツーエンドのSRCパイプラインを構築する。
提案したCNN+(TT-DNN)モデルでは,CNNモデルより4倍少ないモデルパラメータで96.31%の競争精度が得られる。
論文 参考訳(メタデータ) (2022-01-11T05:57:38Z) - Transformed CNNs: recasting pre-trained convolutional layers with
self-attention [17.96659165573821]
視覚変換器(ViT)は、畳み込みネットワーク(CNN)の強力な代替手段として登場した。
本研究では、これらレイヤを畳み込み層として初期化することによって、これらのレイヤのトレーニングに要する時間を短縮するアイデアについて検討する。
微調整は50回しか行われず、結果として得られたT-CNNの性能は著しく向上した。
論文 参考訳(メタデータ) (2021-06-10T14:56:10Z) - Effects of Number of Filters of Convolutional Layers on Speech
Recognition Model Accuracy [6.2698513174194215]
本稿では,ASRモデルに対するCNN+RNNのモデル予測精度に及ぼす畳み込み層フィルタ数の影響について検討する。
実験結果から,フィルタのCNN数が一定の閾値を超えた場合のみ,CNN+RNN音声認識モデルの性能を向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-02-03T23:04:38Z) - ACDC: Weight Sharing in Atom-Coefficient Decomposed Convolution [57.635467829558664]
我々は,CNNにおいて,畳み込みカーネル間の構造正則化を導入する。
我々はCNNがパラメータや計算量を劇的に減らして性能を維持していることを示す。
論文 参考訳(メタデータ) (2020-09-04T20:41:47Z) - Multistream CNN for Robust Acoustic Modeling [17.155489701060542]
マルチストリームCNNは音声認識タスクにおけるロバスト音響モデリングのための新しいニューラルネットワークアーキテクチャである。
我々は、カルディの最良のTDNN-Fモデルに対して、様々なデータセットで一貫した改善を示す。
リアルタイム係数では、マルチストリームCNNはベースラインのTDNN-Fを15%上回る。
論文 参考訳(メタデータ) (2020-05-21T05:26:15Z) - Tensor-to-Vector Regression for Multi-channel Speech Enhancement based
on Tensor-Train Network [53.47564132861866]
マルチチャネル音声強調のためのテンソル-ベクトル回帰手法を提案する。
キーとなる考え方は、従来のディープニューラルネットワーク(DNN)ベースのベクトル-ベクトル回帰の定式化を、テンソル-トレインネットワーク(TTN)フレームワークで行うことである。
8チャンネル条件では、3.12のPSSQはTTNの2000万のパラメータを使用して達成されるが、6800万のパラメータを持つDNNは3.06のPSSQしか達成できない。
論文 参考訳(メタデータ) (2020-02-03T02:58:00Z) - Approximation and Non-parametric Estimation of ResNet-type Convolutional
Neural Networks [52.972605601174955]
本稿では,ResNet型CNNが重要な関数クラスにおいて最小誤差率を達成可能であることを示す。
Barron と H'older のクラスに対する前述のタイプの CNN の近似と推定誤差率を導出する。
論文 参考訳(メタデータ) (2019-03-24T19:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。