論文の概要: An empirical study of Conv-TasNet
- arxiv url: http://arxiv.org/abs/2002.08688v2
- Date: Mon, 24 Feb 2020 15:00:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 07:34:52.517923
- Title: An empirical study of Conv-TasNet
- Title(参考訳): Conv-TasNetの実証的研究
- Authors: Berkan Kadioglu, Michael Horgan, Xiaoyu Liu, Jordi Pons, Dan Darcy,
and Vivek Kumar
- Abstract要約: Conv-TasNetは波形に基づくディープニューラルネットワークであり、音源分離における最先端の性能を実現する。
本稿では,エンコーダ/デコーダの拡張について提案する。
その結果,エンコーダ/デコーダの改良により,平均SI-SNR性能を1dB以上向上できることがわかった。
- 参考スコア(独自算出の注目度): 21.781109287184716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conv-TasNet is a recently proposed waveform-based deep neural network that
achieves state-of-the-art performance in speech source separation. Its
architecture consists of a learnable encoder/decoder and a separator that
operates on top of this learned space. Various improvements have been proposed
to Conv-TasNet. However, they mostly focus on the separator, leaving its
encoder/decoder as a (shallow) linear operator. In this paper, we conduct an
empirical study of Conv-TasNet and propose an enhancement to the
encoder/decoder that is based on a (deep) non-linear variant of it. In
addition, we experiment with the larger and more diverse LibriTTS dataset and
investigate the generalization capabilities of the studied models when trained
on a much larger dataset. We propose cross-dataset evaluation that includes
assessing separations from the WSJ0-2mix, LibriTTS and VCTK databases. Our
results show that enhancements to the encoder/decoder can improve average
SI-SNR performance by more than 1 dB. Furthermore, we offer insights into the
generalization capabilities of Conv-TasNet and the potential value of
improvements to the encoder/decoder.
- Abstract(参考訳): Conv-TasNetは、最近提案された波形に基づくディープニューラルネットワークである。
そのアーキテクチャは学習可能なエンコーダ/デコーダと、この学習空間上で動作するセパレータで構成されている。
Conv-TasNetに様々な改良が提案されている。
しかし、主にセパレータに集中し、エンコーダ/デコーダを(浅すぎる)線形演算子として残した。
本稿では,Conv-TasNetの実証的研究を行い,その(深い)非線形変種に基づくエンコーダ/デコーダの拡張を提案する。
さらに、より大きく多様なLibriTTSデータセットを実験し、より大規模なデータセットでトレーニングされた場合の学習モデルの一般化能力について検討する。
本稿では,WSJ0-2mix, LibriTTS, VCTKデータベースからの分離評価を含むクロスデータセット評価を提案する。
その結果,エンコーダ/デコーダの改良により,平均SI-SNR性能を1dB以上向上できることがわかった。
さらに、conv-tasnetの一般化機能とエンコーダ/デコーダの改善の潜在的な価値について考察する。
関連論文リスト
- Comparison of Conventional Hybrid and CTC/Attention Decoders for
Continuous Visual Speech Recognition [0.0]
従来のDNN-HMMデコーダとその最先端CTC/Attentionの動作は,その推定に使用されるデータ量に依存する。
その結果、従来のパラダイムは、データ共有シナリオにおけるCTC/Attentionモデルを改善するための認識率に達した。
論文 参考訳(メタデータ) (2024-02-20T13:33:33Z) - Interpretable Spectral Variational AutoEncoder (ISVAE) for time series
clustering [48.0650332513417]
可変オートエンコーダ(VAE)の出力にフィルタバンク(FB)の解釈可能なボトルネックを組み込んだ新しいモデルを導入する。
このアレンジメントは、入力信号の最も情報性の高いセグメントに参加するためにVAEを補完する。
VAEをこのFBに故意に拘束することにより、識別可能で分離可能で次元が縮小した符号化の開発を促進する。
論文 参考訳(メタデータ) (2023-10-18T13:06:05Z) - Generalization Bounds for Neural Belief Propagation Decoders [10.96453955114324]
本稿では,ニューラルネットワークを用いたデコーダの一般化機能について検討する。
具体的には、デコーダの一般化ギャップは、経験的ビットエラーレートと期待ビットエラーレートの差である。
通常のパリティチェック行列と不規則なパリティチェック行列の両方について結果が提示される。
論文 参考訳(メタデータ) (2023-05-17T19:56:04Z) - Effective and Interpretable Information Aggregation with Capacity
Networks [3.4012007729454807]
キャパシティネットワークは、意味論的意味のある空間に集約できる複数の解釈可能な中間結果を生成する。
この単純な帰納バイアスを実装することで、異なるエンコーダ・デコーダアーキテクチャの改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-07-25T09:45:16Z) - Unsupervised Representation Learning via Neural Activation Coding [66.65837512531729]
我々は、下流アプリケーションのためのラベルなしデータから深部表現を学習するための新しいアプローチとして、ニューラルアクティベーションコーディング(NAC)を提案する。
我々はNACが連続したデータ表現と離散的なデータ表現の両方を学習し、それぞれ下流の2つのタスクで評価することを示した。
論文 参考訳(メタデータ) (2021-12-07T21:59:45Z) - Neural Distributed Source Coding [59.630059301226474]
相関構造に依存せず,高次元までスケール可能な損失DSCのためのフレームワークを提案する。
提案手法は,複数のデータセット上で評価し,複雑な相関関係と最先端PSNRを扱えることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:50:43Z) - Variational Autoencoders: A Harmonic Perspective [79.49579654743341]
本研究では,高調波解析の観点から変分オートエンコーダ(VAE)について検討する。
VAEのエンコーダ分散は、VAEエンコーダとデコーダニューラルネットワークによってパラメータ化された関数の周波数内容を制御する。
論文 参考訳(メタデータ) (2021-05-31T10:39:25Z) - Latent Code-Based Fusion: A Volterra Neural Network Approach [21.25021807184103]
最近導入されたVolterra Neural Networks(VNN)を用いた深層構造エンコーダを提案する。
提案手法は,cnnベースのオートエンコーダに対して,より頑健な分類性能を持つサンプル複雑性を示す。
論文 参考訳(メタデータ) (2021-04-10T18:29:01Z) - Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic
Image Segmentation [56.44853893149365]
セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。
そこで本研究では,より多くの情報コンテンツを取得するために,浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。
アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。
論文 参考訳(メタデータ) (2020-07-19T18:44:34Z) - On the Encoder-Decoder Incompatibility in Variational Text Modeling and
Beyond [82.18770740564642]
変分オートエンコーダ(VAE)は、潜時変数と償却変分推論を結合する。
我々は,データ多様体のパラメータ化が不十分なエンコーダ・デコーダの不整合性を観察する。
同一構造を持つ決定論的オートエンコーダとVAEモデルを結合した結合型VAEを提案する。
論文 参考訳(メタデータ) (2020-04-20T10:34:10Z) - Rethinking Depthwise Separable Convolutions: How Intra-Kernel
Correlations Lead to Improved MobileNets [6.09170287691728]
CNNのための高効率なビルディングブロックとして,ブループリント分離型畳み込み(BSConv)を導入する。
それらは、訓練されたモデルからカーネル特性の定量的解析によって動機付けられている。
我々のアプローチは、深く分離可能な畳み込みの適用のために、完全な理論的導出、解釈、正当化を提供する。
論文 参考訳(メタデータ) (2020-03-30T15:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。