Fugu-MT 論文翻訳(概要): MelGlow: Efficient Waveform Generative Network Based on Location-Variable Convolution

論文の概要: MelGlow: Efficient Waveform Generative Network Based on Location-Variable Convolution

arxiv url: http://arxiv.org/abs/2012.01684v1
Date: Thu, 3 Dec 2020 03:43:22 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-24 03:08:26.924529
Title: MelGlow: Efficient Waveform Generative Network Based on Location-Variable Convolution
Title（参考訳）: MelGlow: 位置可変畳み込みに基づく効率的な波形生成ネットワーク
Authors: Zhen Zeng, Jianzong Wang, Ning Cheng, Jing Xiao
Abstract要約: 位置可変畳み込みと呼ばれる効率的なネットワークは、波形の依存関係をモデル化するために提案される。 LJSpeechデータセットの実験によると、MelGlowは小さなモデルサイズでWaveGlowよりも優れたパフォーマンスを実現している。
参考スコア（独自算出の注目度）: 28.073277485158737
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent neural vocoders usually use a WaveNet-like network to capture the long-term dependencies of the waveform, but a large number of parameters are required to obtain good modeling capabilities. In this paper, an efficient network, named location-variable convolution, is proposed to model the dependencies of waveforms. Different from the use of unified convolution kernels in WaveNet to capture the dependencies of arbitrary waveforms, location-variable convolutions utilizes a kernel predictor to generate multiple sets of convolution kernels based on the mel-spectrum, where each set of convolution kernels is used to perform convolution operations on the associated waveform intervals. Combining WaveGlow and location-variable convolutions, an efficient vocoder, named MelGlow, is designed. Experiments on the LJSpeech dataset show that MelGlow achieves better performance than WaveGlow at small model sizes, which verifies the effectiveness and potential optimization space of location-variable convolutions.
Abstract（参考訳）: 最近のニューラルボコーダは、波形の長期的な依存性を捉えるためにウェーブネットのようなネットワークを使用するが、優れたモデリング能力を得るためには多数のパラメータが必要である。本稿では,波形の依存性をモデル化するために,位置可変畳み込みと呼ばれる効率的なネットワークを提案する。任意の波形の依存関係を捉えるためにWaveNetで統一された畳み込みカーネルを使用するのと異なり、位置可変畳み込みはカーネル予測器を使用してメルスペクトルに基づいて複数の畳み込みカーネルを生成し、各組の畳み込みカーネルは関連する波形間隔で畳み込み操作を行う。 WaveGlowと位置変化可能な畳み込みを組み合わせることで、MelGlowという名前の効率的なヴォコーダが設計されている。 LJSpeechデータセットの実験では、小さなモデルサイズで、MelGlowはWaveGlowよりも優れたパフォーマンスを実現しており、位置可変畳み込みの有効性と潜在的な最適化空間を検証する。

関連論文リスト

WaveFormer: Frequency-Time Decoupled Vision Modeling with Wave Equation [24.13944601660532]
視覚モデリングはトランスフォーマーによって急速に進歩し、注意機構は視覚的依存を捉えるが、意味情報が空間的にどのように伝播するかという原則的な説明は欠いている。我々はこの問題を波面から再検討し、内部伝播時間における空間信号として特徴写像を下水波方程式で制御する。本稿では,標準VTやCNNのドロップイン置換としてWaveFormerモデルのファミリを提案し,画像分類,オブジェクト検出,セマンティックセグメンテーションにおける競合精度を実現する。
論文参考訳（メタデータ） (2026-01-13T14:47:22Z)
PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation [37.35829410807451]
そこで我々は,新しい普遍波形生成モデルである PeriodWave を提案する。波形信号の周期的特徴を把握できる周期的フローマッチング推定器を提案する。また、周期的バッチ推論によりフィードフォワード並列化が可能な1つの周期条件ユニバーサル推定器を提案する。
論文参考訳（メタデータ） (2024-08-14T13:36:17Z)
WiNet: Wavelet-based Incremental Learning for Efficient Medical Image Registration [68.25711405944239]
深部画像登録は異常な精度と高速な推測を示した。近年の進歩は、粗大から粗大の方法で密度変形場を推定するために、複数のカスケードまたはピラミッドアーキテクチャを採用している。本稿では,様々なスケールにわたる変位/速度場に対して,スケールワイブレット係数を漸進的に推定するモデル駆動WiNetを提案する。
論文参考訳（メタデータ） (2024-07-18T11:51:01Z)
Advancing Graph Convolutional Networks via General Spectral Wavelets [41.41593198072709]
本稿では,マルチレゾリューションスペクトルベースと行列値フィルタカーネルを統合した新しいウェーブレットベースのグラフ畳み込みネットワークWaveGCを提案する。理論的には、WaveGCは、短距離および長距離情報を効果的にキャプチャし、分離できることを確立し、より優れたフィルタリング柔軟性を提供する。
論文参考訳（メタデータ） (2024-05-22T16:32:27Z)
Wav-KAN: Wavelet Kolmogorov-Arnold Networks [3.38220960870904]
Wav-KANは、Wavelet Kolmogorov-Arnold Networks(Wav-KAN)フレームワークを活用して、解釈性とパフォーマンスを向上させる革新的なニューラルネットワークアーキテクチャである。我々の結果は、解釈可能な高性能ニューラルネットワークを開発するための強力なツールとして、Wav-KANの可能性を浮き彫りにしている。
論文参考訳（メタデータ） (2024-05-21T14:36:16Z)
Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。 WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文参考訳（メタデータ） (2023-09-07T06:41:15Z)
Waveflow: boundary-conditioned normalizing flows applied to fermionic wavefunctions [3.7135179920970534]
本稿では,境界条件付き正規化フローを用いたフェルミオン波動関数の学習フレームワークであるWaveflowを紹介する。本研究では,ウェーブフローがトポロジ的ミスマッチを効果的に解決し,基底状態の波動関数を忠実に学習できることを示す。
論文参考訳（メタデータ） (2022-11-27T14:32:09Z)
NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文参考訳（メタデータ） (2022-03-05T08:15:29Z)
Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文参考訳（メタデータ） (2021-07-18T09:05:16Z)
DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic Convolution [136.7261709896713]
本稿では,インスタンスの性質に応じて適切な畳み込みカーネルを生成するデータ駆動型アプローチを提案する。提案手法はScanetNetV2とS3DISの両方で有望な結果が得られる。また、現在の最先端よりも推論速度を25%以上向上させる。
論文参考訳（メタデータ） (2020-11-26T14:56:57Z)
Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文参考訳（メタデータ） (2020-06-23T09:19:13Z)
Wavelet Networks: Scale-Translation Equivariant Learning From Raw Time-Series [31.73386289965465]
スケール変換同変写像はウェーブレット変換と強い類似性を持っている。この類似性に着想を得て、我々のネットワークをウェーブレットネットワークと呼び、ネストした非線形ウェーブレットのような時間周波数変換を行うことを示す。
論文参考訳（メタデータ） (2020-06-09T13:50:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。