論文の概要: MelGlow: Efficient Waveform Generative Network Based on
Location-Variable Convolution
- arxiv url: http://arxiv.org/abs/2012.01684v1
- Date: Thu, 3 Dec 2020 03:43:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-24 03:08:26.924529
- Title: MelGlow: Efficient Waveform Generative Network Based on
Location-Variable Convolution
- Title(参考訳): MelGlow: 位置可変畳み込みに基づく効率的な波形生成ネットワーク
- Authors: Zhen Zeng, Jianzong Wang, Ning Cheng, Jing Xiao
- Abstract要約: 位置可変畳み込みと呼ばれる効率的なネットワークは、波形の依存関係をモデル化するために提案される。
LJSpeechデータセットの実験によると、MelGlowは小さなモデルサイズでWaveGlowよりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 28.073277485158737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent neural vocoders usually use a WaveNet-like network to capture the
long-term dependencies of the waveform, but a large number of parameters are
required to obtain good modeling capabilities. In this paper, an efficient
network, named location-variable convolution, is proposed to model the
dependencies of waveforms. Different from the use of unified convolution
kernels in WaveNet to capture the dependencies of arbitrary waveforms,
location-variable convolutions utilizes a kernel predictor to generate multiple
sets of convolution kernels based on the mel-spectrum, where each set of
convolution kernels is used to perform convolution operations on the associated
waveform intervals. Combining WaveGlow and location-variable convolutions, an
efficient vocoder, named MelGlow, is designed. Experiments on the LJSpeech
dataset show that MelGlow achieves better performance than WaveGlow at small
model sizes, which verifies the effectiveness and potential optimization space
of location-variable convolutions.
- Abstract(参考訳): 最近のニューラルボコーダは、波形の長期的な依存性を捉えるためにウェーブネットのようなネットワークを使用するが、優れたモデリング能力を得るためには多数のパラメータが必要である。
本稿では,波形の依存性をモデル化するために,位置可変畳み込みと呼ばれる効率的なネットワークを提案する。
任意の波形の依存関係を捉えるためにWaveNetで統一された畳み込みカーネルを使用するのと異なり、位置可変畳み込みはカーネル予測器を使用してメルスペクトルに基づいて複数の畳み込みカーネルを生成し、各組の畳み込みカーネルは関連する波形間隔で畳み込み操作を行う。
WaveGlowと位置変化可能な畳み込みを組み合わせることで、MelGlowという名前の効率的なヴォコーダが設計されている。
LJSpeechデータセットの実験では、小さなモデルサイズで、MelGlowはWaveGlowよりも優れたパフォーマンスを実現しており、位置可変畳み込みの有効性と潜在的な最適化空間を検証する。
関連論文リスト
- PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation [37.35829410807451]
そこで我々は,新しい普遍波形生成モデルである PeriodWave を提案する。
波形信号の周期的特徴を把握できる周期的フローマッチング推定器を提案する。
また、周期的バッチ推論によりフィードフォワード並列化が可能な1つの周期条件ユニバーサル推定器を提案する。
論文 参考訳(メタデータ) (2024-08-14T13:36:17Z) - WiNet: Wavelet-based Incremental Learning for Efficient Medical Image Registration [68.25711405944239]
深部画像登録は異常な精度と高速な推測を示した。
近年の進歩は、粗大から粗大の方法で密度変形場を推定するために、複数のカスケードまたはピラミッドアーキテクチャを採用している。
本稿では,様々なスケールにわたる変位/速度場に対して,スケールワイブレット係数を漸進的に推定するモデル駆動WiNetを提案する。
論文 参考訳(メタデータ) (2024-07-18T11:51:01Z) - Advancing Graph Convolutional Networks via General Spectral Wavelets [41.41593198072709]
本稿では,マルチレゾリューションスペクトルベースと行列値フィルタカーネルを統合した新しいウェーブレットベースのグラフ畳み込みネットワークWaveGCを提案する。
理論的には、WaveGCは、短距離および長距離情報を効果的にキャプチャし、分離できることを確立し、より優れたフィルタリング柔軟性を提供する。
論文 参考訳(メタデータ) (2024-05-22T16:32:27Z) - Wav-KAN: Wavelet Kolmogorov-Arnold Networks [3.38220960870904]
Wav-KANは、Wavelet Kolmogorov-Arnold Networks(Wav-KAN)フレームワークを活用して、解釈性とパフォーマンスを向上させる革新的なニューラルネットワークアーキテクチャである。
我々の結果は、解釈可能な高性能ニューラルネットワークを開発するための強力なツールとして、Wav-KANの可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-05-21T14:36:16Z) - Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。
既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。
WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文 参考訳(メタデータ) (2023-09-07T06:41:15Z) - Waveflow: boundary-conditioned normalizing flows applied to fermionic wavefunctions [3.7135179920970534]
本稿では,境界条件付き正規化フローを用いたフェルミオン波動関数の学習フレームワークであるWaveflowを紹介する。
本研究では,ウェーブフローがトポロジ的ミスマッチを効果的に解決し,基底状態の波動関数を忠実に学習できることを示す。
論文 参考訳(メタデータ) (2022-11-27T14:32:09Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。
我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。
提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文 参考訳(メタデータ) (2021-07-18T09:05:16Z) - DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic
Convolution [136.7261709896713]
本稿では,インスタンスの性質に応じて適切な畳み込みカーネルを生成するデータ駆動型アプローチを提案する。
提案手法はScanetNetV2とS3DISの両方で有望な結果が得られる。
また、現在の最先端よりも推論速度を25%以上向上させる。
論文 参考訳(メタデータ) (2020-11-26T14:56:57Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - Wavelet Networks: Scale-Translation Equivariant Learning From Raw
Time-Series [31.73386289965465]
スケール変換同変写像はウェーブレット変換と強い類似性を持っている。
この類似性に着想を得て、我々のネットワークをウェーブレットネットワークと呼び、ネストした非線形ウェーブレットのような時間周波数変換を行うことを示す。
論文 参考訳(メタデータ) (2020-06-09T13:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。