論文の概要: Tensor-to-Vector Regression for Multi-channel Speech Enhancement based
on Tensor-Train Network
- arxiv url: http://arxiv.org/abs/2002.00544v1
- Date: Mon, 3 Feb 2020 02:58:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 08:04:07.916185
- Title: Tensor-to-Vector Regression for Multi-channel Speech Enhancement based
on Tensor-Train Network
- Title(参考訳): テンソルトレインネットワークに基づくマルチチャンネル音声強調のためのテンソル-ベクトル回帰
- Authors: Jun Qi, Hu Hu, Yannan Wang, Chao-Han Huck Yang, Sabato Marco
Siniscalchi, Chin-Hui Lee
- Abstract要約: マルチチャネル音声強調のためのテンソル-ベクトル回帰手法を提案する。
キーとなる考え方は、従来のディープニューラルネットワーク(DNN)ベースのベクトル-ベクトル回帰の定式化を、テンソル-トレインネットワーク(TTN)フレームワークで行うことである。
8チャンネル条件では、3.12のPSSQはTTNの2000万のパラメータを使用して達成されるが、6800万のパラメータを持つDNNは3.06のPSSQしか達成できない。
- 参考スコア(独自算出の注目度): 53.47564132861866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a tensor-to-vector regression approach to multi-channel speech
enhancement in order to address the issue of input size explosion and
hidden-layer size expansion. The key idea is to cast the conventional deep
neural network (DNN) based vector-to-vector regression formulation under a
tensor-train network (TTN) framework. TTN is a recently emerged solution for
compact representation of deep models with fully connected hidden layers. Thus
TTN maintains DNN's expressive power yet involves a much smaller amount of
trainable parameters. Furthermore, TTN can handle a multi-dimensional tensor
input by design, which exactly matches the desired setting in multi-channel
speech enhancement. We first provide a theoretical extension from DNN to TTN
based regression. Next, we show that TTN can attain speech enhancement quality
comparable with that for DNN but with much fewer parameters, e.g., a reduction
from 27 million to only 5 million parameters is observed in a single-channel
scenario. TTN also improves PESQ over DNN from 2.86 to 2.96 by slightly
increasing the number of trainable parameters. Finally, in 8-channel
conditions, a PESQ of 3.12 is achieved using 20 million parameters for TTN,
whereas a DNN with 68 million parameters can only attain a PESQ of 3.06. Our
implementation is available online
https://github.com/uwjunqi/Tensor-Train-Neural-Network.
- Abstract(参考訳): 本稿では,入力サイズの爆発と隠れ層サイズ拡大の問題に対処するため,マルチチャネル音声強調のためのテンソル-ベクトル回帰手法を提案する。
キーとなる考え方は、従来のディープニューラルネットワーク(DNN)ベースのベクトル-ベクトル回帰の定式化を、テンソル-トレインネットワーク(TTN)フレームワークで行うことである。
ttnは、完全に接続された隠れ層を持つ深層モデルのコンパクトな表現のための最近登場したソリューションである。
したがって、TTNはDNNの表現力を維持するが、訓練可能なパラメータの量ははるかに少ない。
さらに、TTNは設計による多次元テンソル入力を処理でき、多チャンネル音声強調における所望の設定と正確に一致する。
まず、DNNからTTNベースの回帰への理論的拡張を提案する。
次に, TTN は DNN に匹敵する音声強調品質を実現することができるが, 単一のシナリオでは, パラメータが 2700 万から 500 万に減少するなど, パラメータがはるかに少ない。
TTNはまた、トレーニング可能なパラメータの数をわずかに増やすことで、DNN上のPSSQを2.86から2.96に改善した。
最後に、8チャンネル条件では3.12のPSSQがTTNの2000万のパラメータを使用して達成され、6800万のパラメータを持つDNNは3.06のPSSQしか達成できない。
我々の実装はオンラインhttps://github.com/uwjunqi/Tensor-Train-Neural-Network.comで利用可能です。
関連論文リスト
- Exploiting Low-Rank Tensor-Train Deep Neural Networks Based on
Riemannian Gradient Descent With Illustrations of Speech Processing [74.31472195046099]
我々は、低ランクテンソルトレイン深層ニューラルネットワーク(TT-DNN)を用いて、エンドツーエンドのディープラーニングパイプライン、すなわちLR-TT-DNNを構築する。
LR-TT-DNNと畳み込みニューラルネットワーク(CNN)を組み合わせたハイブリッドモデルを構築し、性能を向上する。
我々の実証的な証拠は、モデルパラメータが少ないLR-TT-DNNとCNN+(LR-TT-DNN)モデルが、TT-DNNとCNN+(LR-TT-DNN)モデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-03-11T15:55:34Z) - Training Graph Neural Networks with 1000 Layers [133.84813995275988]
我々は、GNNのメモリとパラメータ効率を向上させるために、可逆接続、グループ畳み込み、重み付け、平衡モデルについて検討する。
我々の知る限りでは、RevGNN-Deepは文学で最も深いGNNである。
論文 参考訳(メタデータ) (2021-06-14T15:03:00Z) - Overcoming Catastrophic Forgetting in Graph Neural Networks [50.900153089330175]
破滅的な忘れは、ニューラルネットワークが新しいタスクを学ぶ前に学んだ知識を「忘れる」傾向を指します。
本稿では,この問題を克服し,グラフニューラルネットワーク(GNN)における継続学習を強化するための新しいスキームを提案する。
私たちのアプローチの中心には、トポロジ認識重量保存(TWP)と呼ばれる汎用モジュールがあります。
論文 参考訳(メタデータ) (2020-12-10T22:30:25Z) - Dynamically Throttleable Neural Networks (TNN) [24.052859278938858]
ディープニューラルネットワーク(DNN)の条件計算は、全体の計算負荷を削減し、ネットワークのサブセットを実行することでモデルの精度を向上させる。
我々は,自身のパフォーマンス目標と計算資源を適応的に自己制御できるランタイムスロットルブルニューラルネットワーク(TNN)を提案する。
論文 参考訳(メタデータ) (2020-11-01T20:17:42Z) - Block-term Tensor Neural Networks [29.442026567710435]
ブロック終端テンソル層(BT層)は,CNNやRNNなどのニューラルネットワークモデルに容易に適用可能であることを示す。
CNNとRNNのBT層は、元のDNNの表現力を維持したり改善したりしながら、パラメータ数に対して非常に大きな圧縮比を達成することができる。
論文 参考訳(メタデータ) (2020-10-10T09:58:43Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z) - Depthwise Separable Convolutions Versus Recurrent Neural Networks for
Monaural Singing Voice Separation [17.358040670413505]
我々は歌声分離に重点を置き、RNNアーキテクチャを採用し、RNNをDWS畳み込み(DWS-CNN)に置き換える。
本稿では,DWS-CNNのチャネル数と層数による音源分離性能への影響について検討する。
その結果、RNNをDWS-CNNに置き換えることで、RNNアーキテクチャのパラメータの20.57%しか使用せず、それぞれ1.20、0.06、0.37dBの改善が得られることがわかった。
論文 参考訳(メタデータ) (2020-07-06T12:32:34Z) - Training of Quantized Deep Neural Networks using a Magnetic Tunnel
Junction-Based Synapse [23.08163992580639]
深層ニューラルネットワークの計算複雑性とメモリ強度のソリューションとして、量子ニューラルネットワーク(QNN)が積極的に研究されている。
磁気トンネル接合(MTJ)デバイスがQNNトレーニングにどのように役立つかを示す。
本稿では,MTJ動作を用いた新しいシナプス回路を導入し,量子化更新をサポートする。
論文 参考訳(メタデータ) (2019-12-29T11:36:32Z) - Approximation and Non-parametric Estimation of ResNet-type Convolutional
Neural Networks [52.972605601174955]
本稿では,ResNet型CNNが重要な関数クラスにおいて最小誤差率を達成可能であることを示す。
Barron と H'older のクラスに対する前述のタイプの CNN の近似と推定誤差率を導出する。
論文 参考訳(メタデータ) (2019-03-24T19:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。