論文の概要: MelGlow: Efficient Waveform Generative Network Based on
Location-Variable Convolution
- arxiv url: http://arxiv.org/abs/2012.01684v1
- Date: Thu, 3 Dec 2020 03:43:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-24 03:08:26.924529
- Title: MelGlow: Efficient Waveform Generative Network Based on
Location-Variable Convolution
- Title(参考訳): MelGlow: 位置可変畳み込みに基づく効率的な波形生成ネットワーク
- Authors: Zhen Zeng, Jianzong Wang, Ning Cheng, Jing Xiao
- Abstract要約: 位置可変畳み込みと呼ばれる効率的なネットワークは、波形の依存関係をモデル化するために提案される。
LJSpeechデータセットの実験によると、MelGlowは小さなモデルサイズでWaveGlowよりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 28.073277485158737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent neural vocoders usually use a WaveNet-like network to capture the
long-term dependencies of the waveform, but a large number of parameters are
required to obtain good modeling capabilities. In this paper, an efficient
network, named location-variable convolution, is proposed to model the
dependencies of waveforms. Different from the use of unified convolution
kernels in WaveNet to capture the dependencies of arbitrary waveforms,
location-variable convolutions utilizes a kernel predictor to generate multiple
sets of convolution kernels based on the mel-spectrum, where each set of
convolution kernels is used to perform convolution operations on the associated
waveform intervals. Combining WaveGlow and location-variable convolutions, an
efficient vocoder, named MelGlow, is designed. Experiments on the LJSpeech
dataset show that MelGlow achieves better performance than WaveGlow at small
model sizes, which verifies the effectiveness and potential optimization space
of location-variable convolutions.
- Abstract(参考訳): 最近のニューラルボコーダは、波形の長期的な依存性を捉えるためにウェーブネットのようなネットワークを使用するが、優れたモデリング能力を得るためには多数のパラメータが必要である。
本稿では,波形の依存性をモデル化するために,位置可変畳み込みと呼ばれる効率的なネットワークを提案する。
任意の波形の依存関係を捉えるためにWaveNetで統一された畳み込みカーネルを使用するのと異なり、位置可変畳み込みはカーネル予測器を使用してメルスペクトルに基づいて複数の畳み込みカーネルを生成し、各組の畳み込みカーネルは関連する波形間隔で畳み込み操作を行う。
WaveGlowと位置変化可能な畳み込みを組み合わせることで、MelGlowという名前の効率的なヴォコーダが設計されている。
LJSpeechデータセットの実験では、小さなモデルサイズで、MelGlowはWaveGlowよりも優れたパフォーマンスを実現しており、位置可変畳み込みの有効性と潜在的な最適化空間を検証する。
関連論文リスト
- Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - GaborPINN: Efficient physics informed neural networks using
multiplicative filtered networks [0.0]
物理インフォームドニューラルネットワーク(PINN)は、ニューラルネットワーク(NN)で表される機能的ウェーブフィールドソリューションを提供する
本稿では,学習における波動場の特徴のいくつかを組み込んだ乗算フィルタネットワークを用いた改良PINNを提案する。
提案手法は,従来のPINNと比較して,収束速度が最大2マグニチュード向上する。
論文 参考訳(メタデータ) (2023-08-10T19:51:00Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z) - High-Fidelity and Low-Latency Universal Neural Vocoder based on
Multiband WaveRNN with Data-Driven Linear Prediction for Discrete Waveform
Modeling [38.828260316517536]
本稿では、離散波形モデリング(MWDLP)のためのデータ駆動線形予測を用いたマルチバンドWaveRNNに基づく新しいユニバーサルニューラルネットワークボコーダフレームワークを提案する。
提案したMWDLPフレームワークは、クリーンでノイズの多い残響条件を含む300人の話者のトレーニングデータに対して、見知らぬ話者や/または言語に対して高忠実な合成音声を生成することを示す。
論文 参考訳(メタデータ) (2021-05-20T16:02:45Z) - DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic
Convolution [136.7261709896713]
本稿では,インスタンスの性質に応じて適切な畳み込みカーネルを生成するデータ駆動型アプローチを提案する。
提案手法はScanetNetV2とS3DISの両方で有望な結果が得られる。
また、現在の最先端よりも推論速度を25%以上向上させる。
論文 参考訳(メタデータ) (2020-11-26T14:56:57Z) - DiffWave: A Versatile Diffusion Model for Audio Synthesis [35.406438835268816]
DiffWaveは条件および非条件波形生成のための多目的拡散確率モデルである。
メルスペクトログラムに条件付けされたニューラル・ヴォイコーディングを含む、様々な波形生成タスクで高忠実なオーディオを生成する。
これは、非条件生成課題において、自己回帰およびGANベースの波形モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-09-21T11:20:38Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - Wavelet Networks: Scale-Translation Equivariant Learning From Raw
Time-Series [31.73386289965465]
スケール変換同変写像はウェーブレット変換と強い類似性を持っている。
この類似性に着想を得て、我々のネットワークをウェーブレットネットワークと呼び、ネストした非線形ウェーブレットのような時間周波数変換を行うことを示す。
論文 参考訳(メタデータ) (2020-06-09T13:50:34Z) - WaveNODE: A Continuous Normalizing Flow for Speech Synthesis [15.051929807285847]
本稿では,音声合成のための連続正規化フローを利用するWaveNODEと呼ばれる新しい生成モデルを提案する。
WaveNODEはフロー操作に使用する関数に制約を課さないため、より柔軟で複雑な関数を使用することができる。
本研究では,従来のフローベースボコーダに比べて少ないパラメータでウェーブヌードが同等の性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-06-08T13:49:36Z) - Noise Homogenization via Multi-Channel Wavelet Filtering for
High-Fidelity Sample Generation in GANs [47.92719758687014]
GAN(Generative Adversarial Networks)のための新しいマルチチャネルウェーブレットに基づくフィルタリング手法を提案する。
ジェネレータにウェーブレットのデコンボリューション層を埋め込むと、結果のGANであるWaveletGANがウェーブレットのデコンボリューションを利用して複数のチャネルによるフィルタリングを学習する。
オープンGANベンチマークツールを用いて,Fashion-MNIST,KMNIST,SVHNデータセットのベンチマーク実験を行った。
論文 参考訳(メタデータ) (2020-05-14T03:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。