論文の概要: Framewise WaveGAN: High Speed Adversarial Vocoder in Time Domain with
Very Low Computational Complexity
- arxiv url: http://arxiv.org/abs/2212.04532v1
- Date: Thu, 8 Dec 2022 19:38:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 16:13:33.225909
- Title: Framewise WaveGAN: High Speed Adversarial Vocoder in Time Domain with
Very Low Computational Complexity
- Title(参考訳): フレームワイズウェーブGAN:超低計算複素数時間領域における高速逆数ボコーダ
- Authors: Ahmed Mustafa, Jean-Marc Valin, Jan B\"uthe, Paris Smaragdis, Mike
Goodwin
- Abstract要約: フレームワイズWaveGAN vocoderは、LPCNetのような自動回帰最大化ボコーダよりも1.2GFLOPSの非常に低い複雑さで高い品質を実現する。
これにより、GANボコーダはエッジや低消費電力デバイスでより実用的になる。
- 参考スコア(独自算出の注目度): 23.49462995118466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: GAN vocoders are currently one of the state-of-the-art methods for building
high-quality neural waveform generative models. However, most of their
architectures require dozens of billion floating-point operations per second
(GFLOPS) to generate speech waveforms in samplewise manner. This makes GAN
vocoders still challenging to run on normal CPUs without accelerators or
parallel computers. In this work, we propose a new architecture for GAN
vocoders that mainly depends on recurrent and fully-connected networks to
directly generate the time domain signal in framewise manner. This results in
considerable reduction of the computational cost and enables very fast
generation on both GPUs and low-complexity CPUs. Experimental results show that
our Framewise WaveGAN vocoder achieves significantly higher quality than
auto-regressive maximum-likelihood vocoders such as LPCNet at a very low
complexity of 1.2 GFLOPS. This makes GAN vocoders more practical on edge and
low-power devices.
- Abstract(参考訳): GANヴォコーダは現在、高品質なニューラルウェーブフォーム生成モデルを構築するための最先端の手法の1つである。
しかし、これらのアーキテクチャのほとんどは、サンプル的に音声波形を生成するために毎秒数十億の浮動小数点演算(GFLOPS)を必要とする。
これにより、GANボコーダは、アクセラレータや並列コンピュータを使わずに、通常のCPU上で動作することはまだ困難である。
そこで本研究では,ganボコーダの時間領域信号をフレーム的に直接生成するために,再帰的かつ完全接続されたネットワークに主に依存する新しいアーキテクチャを提案する。
これにより計算コストが大幅に削減され、GPUと低複雑さCPUの両方で非常に高速な生成が可能となる。
実験の結果,我々のFramewise WaveGAN vocoder は LPCNet などの自己回帰型最大形vocoder よりも1.2GFLOPS の超低複雑性で高い品質を実現していることがわかった。
これにより、GANボコーダはエッジや低消費電力デバイスでより実用的になる。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Real-Time Target Sound Extraction [13.526450617545537]
実時間およびストリーミングターゲット音抽出を実現するためのニューラルネットワークモデルを提案する。
本稿では,エンコーダとして拡張因果畳み込みレイヤを積み重ねたエンコーダデコーダアーキテクチャであるWaveformerと,デコーダとしてトランスフォーマデコーダレイヤを提案する。
論文 参考訳(メタデータ) (2022-11-04T03:51:23Z) - WOLONet: Wave Outlooker for Efficient and High Fidelity Speech Synthesis [4.689359813220365]
本稿では,WOLONetという,効果的で軽量なニューラルボコーダを提案する。
本稿では,Sinusoidally activated dynamic kernel weightsを用いた,位置可変,チャネル非依存,奥行き動的畳み込みカーネルを用いた軽量ブロックを開発する。
その結果、我々のWOLONetは2つのニューラルSOTAボコーダ、HiFiGANとUnivNetよりも少ないパラメータを必要としながら、最高の生成品質を実現していることがわかった。
論文 参考訳(メタデータ) (2022-06-20T17:58:52Z) - BigVGAN: A Universal Neural Vocoder with Large-Scale Training [49.16254684584935]
ゼロショット設定において、様々な未知条件下でよく一般化する普遍的なボコーダであるBigVGANを提案する。
生成器に周期的非線形性とアンチエイリアス表現を導入し、波形に所望の帰納バイアスをもたらす。
我々はGANボコーダを最大1億2200万のパラメータで訓練する。
論文 参考訳(メタデータ) (2022-06-09T17:56:10Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Two-Timescale End-to-End Learning for Channel Acquisition and Hybrid
Precoding [94.40747235081466]
本研究では,ミリ波(mmWave)大規模マルチインプット多重出力(MIMO)システムのためのエンドツーエンドの深層学習に基づくジョイントトランスシーバ設計アルゴリズムを提案する。
我々は受信したパイロットを受信機でフィードバックビットにマッピングし、さらに送信機でハイブリッドプリコーダにフィードバックビットをマッピングするDNNアーキテクチャを開発した。
論文 参考訳(メタデータ) (2021-10-22T20:49:02Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - A Streamwise GAN Vocoder for Wideband Speech Coding at Very Low Bit Rate [8.312162364318235]
本稿では、1.6kbit/sで符号化されたパラメータから広帯域音声波形を生成することができるGANボコーダを提案する。
提案モデルは,フレーム単位で動作可能なStyleMelGANボコーダの改良版である。
論文 参考訳(メタデータ) (2021-08-09T14:03:07Z) - Multi-rate attention architecture for fast streamable Text-to-speech
spectrum modeling [5.080331097831114]
高品質のテキストと音声(TTS)システムは、スペクトルフレームを生成するスペクトルモデルステージと実際のオーディオを生成するボコーダステージを備えた2段階のアーキテクチャを使用します。
これらのモデルは高品質な音声を生成することができるが、入力長に関してレイテンシーとリアルタイム因子(rtf)の両方にol$を負うことが多い。
本稿では,ストリーミング中にコンパクト表現を符号化することでレイテンシボトルネックを解消するマルチレートアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-04-01T18:15:30Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - FastWave: Accelerating Autoregressive Convolutional Neural Networks on
FPGA [27.50143717931293]
WaveNetは、拡張畳み込みの複数のレイヤで構成された、深く自己回帰的なCNNである。
我々は,自己回帰畳み込みニューラルネットワークのための最初のアクセラレータtextitFastWaveを開発した。
論文 参考訳(メタデータ) (2020-02-09T06:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。