論文の概要: WOLONet: Wave Outlooker for Efficient and High Fidelity Speech Synthesis
- arxiv url: http://arxiv.org/abs/2206.09920v1
- Date: Mon, 20 Jun 2022 17:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 14:04:14.667171
- Title: WOLONet: Wave Outlooker for Efficient and High Fidelity Speech Synthesis
- Title(参考訳): wolonet:効率良く高精度な音声合成のためのウェーブ・スペクタ
- Authors: Yi Wang, Yi Si
- Abstract要約: 本稿では,WOLONetという,効果的で軽量なニューラルボコーダを提案する。
本稿では,Sinusoidally activated dynamic kernel weightsを用いた,位置可変,チャネル非依存,奥行き動的畳み込みカーネルを用いた軽量ブロックを開発する。
その結果、我々のWOLONetは2つのニューラルSOTAボコーダ、HiFiGANとUnivNetよりも少ないパラメータを必要としながら、最高の生成品質を実現していることがわかった。
- 参考スコア(独自算出の注目度): 4.689359813220365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, GAN-based neural vocoders such as Parallel WaveGAN, MelGAN,
HiFiGAN, and UnivNet have become popular due to their lightweight and parallel
structure, resulting in a real-time synthesized waveform with high fidelity,
even on a CPU. HiFiGAN and UnivNet are two SOTA vocoders. Despite their high
quality, there is still room for improvement. In this paper, motivated by the
structure of Vision Outlooker from computer vision, we adopt a similar idea and
propose an effective and lightweight neural vocoder called WOLONet. In this
network, we develop a novel lightweight block that uses a location-variable,
channel-independent, and depthwise dynamic convolutional kernel with
sinusoidally activated dynamic kernel weights. To demonstrate the effectiveness
and generalizability of our method, we perform an ablation study to verify our
novel design and make a subjective and objective comparison with typical
GAN-based vocoders. The results show that our WOLONet achieves the best
generation quality while requiring fewer parameters than the two neural SOTA
vocoders, HiFiGAN and UnivNet.
- Abstract(参考訳): 近年,Parallel WaveGAN,MelGAN,HiFiGAN,UnivNetなどのGANベースのニューラルボコーダが,その軽量かつ並列な構造から普及し,CPU上でも高忠実なリアルタイム合成波形が実現されている。
HiFiGANとUnivNetは2つのSOTAヴォコーダである。
品質は高いものの、改善の余地はまだある。
本稿では,コンピュータビジョンからの視覚インスペクタの構造に動機づけられ,同様のアイデアを採用し,wolonetと呼ばれる効果的で軽量なニューラルボコーダを提案する。
本ネットワークでは,Sinusoidally activated dynamic kernel weightsを用いた,位置可変,チャネル非依存,奥行き動的畳み込みカーネルを用いた軽量ブロックを開発する。
提案手法の有効性と一般化性を示すため,本手法の新規設計を検証し,典型的なGANベースのボコーダと主観的,客観的な比較を行う。
その結果、我々のWOLONetは2つのニューラルSOTAボコーダ、HiFiGANとUnivNetよりも少ないパラメータを必要としながら、最高の生成品質を実現していることがわかった。
関連論文リスト
- sVAD: A Robust, Low-Power, and Light-Weight Voice Activity Detection
with Spiking Neural Networks [51.516451451719654]
スパイキングニューラルネットワーク(SNN)は生物学的に妥当で、電力効率が高いことが知られている。
本稿では sVAD と呼ばれる新しい SNN ベースの音声活動検出モデルを提案する。
SincNetと1D畳み込みによる効果的な聴覚特徴表現を提供し、アテンション機構による雑音の堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-09T02:55:44Z) - HiFTNet: A Fast High-Quality Neural Vocoder with Harmonic-plus-Noise
Filter and Inverse Short Time Fourier Transform [21.896817015593122]
時間周波数領域に高調波+雑音源フィルタを組み込んだiSTFTNet(HiFTNet)の拡張を提案する。
LJSpeech の主観評価では,iSTFTNet と HiFi-GAN のどちらよりも優れていた。
私たちの研究は、効率的で高品質なニューラルボコーディングのための新しいベンチマークを設定し、リアルタイムアプリケーションへの道を開いた。
論文 参考訳(メタデータ) (2023-09-18T05:30:15Z) - BigVSAN: Enhancing GAN-based Neural Vocoders with Slicing Adversarial Network [16.986061375767488]
高忠実度音声波形をリアルタイムより高速に合成できるGANベースのボコーダの研究が盛んに行われている。
ほとんどのGANは、特徴空間における実データと偽データとを識別する最適なプロジェクションを得ることができない。
本稿では,ほとんどのGANベースのボコーダが採用している最小二乗GANを,損失関数がSANの要求を満たすように修正する手法を提案する。
論文 参考訳(メタデータ) (2023-09-06T08:48:03Z) - Framewise WaveGAN: High Speed Adversarial Vocoder in Time Domain with
Very Low Computational Complexity [23.49462995118466]
フレームワイズWaveGAN vocoderは、LPCNetのような自動回帰最大化ボコーダよりも1.2GFLOPSの非常に低い複雑さで高い品質を実現する。
これにより、GANボコーダはエッジや低消費電力デバイスでより実用的になる。
論文 参考訳(メタデータ) (2022-12-08T19:38:34Z) - Spiking Neural Network Decision Feedback Equalization [70.3497683558609]
決定フィードバック等化器(DFE)に似たフィードバック構造を持つSNNベースの等化器を提案する。
提案手法は,3種類の模範チャネルに対して,従来の線形等化器よりも明らかに優れていることを示す。
決定フィードバック構造を持つSNNは、競合エネルギー効率の良いトランシーバへのパスを可能にする。
論文 参考訳(メタデータ) (2022-11-09T09:19:15Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Variational Autoencoders: A Harmonic Perspective [79.49579654743341]
本研究では,高調波解析の観点から変分オートエンコーダ(VAE)について検討する。
VAEのエンコーダ分散は、VAEエンコーダとデコーダニューラルネットワークによってパラメータ化された関数の周波数内容を制御する。
論文 参考訳(メタデータ) (2021-05-31T10:39:25Z) - StyleMelGAN: An Efficient High-Fidelity Adversarial Vocoder with
Temporal Adaptive Normalization [9.866072912049031]
StyleMelGANは、計算複雑性の低い高忠実度音声の合成を可能にする軽量なニューラルボコーダである。
StyleMelGANは、時間適応正規化を用いて、ターゲット音声の音響的特徴を持つ低次元ノイズベクトルをスタイルする。
高度に並列化可能な音声生成は、CPUやGPUのリアルタイムよりも数倍高速である。
論文 参考訳(メタデータ) (2020-11-03T08:28:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。