論文の概要: FreGrad: Lightweight and Fast Frequency-aware Diffusion Vocoder
- arxiv url: http://arxiv.org/abs/2401.10032v1
- Date: Thu, 18 Jan 2024 14:57:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 16:09:21.811767
- Title: FreGrad: Lightweight and Fast Frequency-aware Diffusion Vocoder
- Title(参考訳): FreGrad:軽量かつ高速な周波数対応拡散ボコーダ
- Authors: Tan Dat Nguyen, Ji-Hoon Kim, Youngjoon Jang, Jaehun Kim, Joon Son
Chung
- Abstract要約: 本稿では,FreGradという軽量かつ高速な拡散型ボコーダを用いて,現実的な音声を生成することを目的とする。
実験では,FreGradのトレーニング時間は3.7倍,推論速度はベースラインの2.2倍に向上した。
- 参考スコア(独自算出の注目度): 28.12938571230418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this paper is to generate realistic audio with a lightweight and
fast diffusion-based vocoder, named FreGrad. Our framework consists of the
following three key components: (1) We employ discrete wavelet transform that
decomposes a complicated waveform into sub-band wavelets, which helps FreGrad
to operate on a simple and concise feature space, (2) We design a
frequency-aware dilated convolution that elevates frequency awareness,
resulting in generating speech with accurate frequency information, and (3) We
introduce a bag of tricks that boosts the generation quality of the proposed
model. In our experiments, FreGrad achieves 3.7 times faster training time and
2.2 times faster inference speed compared to our baseline while reducing the
model size by 0.6 times (only 1.78M parameters) without sacrificing the output
quality. Audio samples are available at:
https://mm.kaist.ac.kr/projects/FreGrad.
- Abstract(参考訳): 本稿では,FreGradという軽量かつ高速な拡散型ボコーダを用いて,現実的な音声を生成することを目的とする。
本フレームワークは,(1)複雑な波形をサブバンドウェーブレットに分解する離散ウェーブレット変換を用い,FreGradが単純かつ簡潔な特徴空間で動作できるようにする。(2)周波数認識を高くし,正確な周波数情報で音声を生成する周波数認識拡張畳み込みを設計し,(3)提案モデルの生成品質を高めるトリックの袋を導入する。
実験では、FreGradはトレーニング時間3.7倍、ベースライン2.2倍の推論速度を実現し、出力品質を犠牲にすることなくモデルサイズを0.6倍(パラメータは1.78M)削減した。
オーディオサンプルは以下の通りである。
関連論文リスト
- Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - RFWave: Multi-band Rectified Flow for Audio Waveform Reconstruction [12.64898580131053]
本稿では,メルスペクトルや離散音響トークンから高忠実度音声波形を再構成する,最先端マルチバンド整流流法RFWaveを紹介する。
RFWaveは複雑なスペクトログラムを独自に生成し、フレームレベルで動作し、全てのサブバンドを同時に処理して効率を向上する。
実験により、RFWaveは優れた再構成品質を提供するだけでなく、計算効率も非常に優れており、GPU上でのオーディオ生成は、リアルタイムよりも最大160倍高速であることがわかった。
論文 参考訳(メタデータ) (2024-03-08T03:16:47Z) - Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion [85.54515118077825]
本稿では, 常微分方程式に基づく線形拡散モデル(LinDiff)を提案する。
計算複雑性を低減するため、LinDiffでは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。
我々のモデルは、より高速な合成速度で自己回帰モデルに匹敵する品質の音声を合成することができる。
論文 参考訳(メタデータ) (2023-06-09T07:02:43Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Real-Time Target Sound Extraction [13.526450617545537]
実時間およびストリーミングターゲット音抽出を実現するためのニューラルネットワークモデルを提案する。
本稿では,エンコーダとして拡張因果畳み込みレイヤを積み重ねたエンコーダデコーダアーキテクチャであるWaveformerと,デコーダとしてトランスフォーマデコーダレイヤを提案する。
論文 参考訳(メタデータ) (2022-11-04T03:51:23Z) - Inception Transformer [151.939077819196]
インセプショントランスフォーマー(iFormer)は、視覚データ中の高周波数情報と低周波情報の両方で包括的特徴を学習する。
我々は、iFormerを一連の視覚タスクでベンチマークし、画像分類、COCO検出、ADE20Kセグメンテーションにおいて優れた性能を発揮することを示した。
論文 参考訳(メタデータ) (2022-05-25T17:59:54Z) - Frequency-bin entanglement from domain-engineered down-conversion [101.18253437732933]
フィルタや共振器の共振器を用いない離散周波数ビン絡みの単一パス源を提案する。
ドメインエンジニアリングされた非線形結晶を用いて、通信波長で8モードの周波数ビン絡み合った光源を生成する。
論文 参考訳(メタデータ) (2022-01-18T19:00:29Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - Fre-GAN: Adversarial Frequency-consistent Audio Synthesis [39.69759686729388]
Fre-GANは、周波数一貫性のある音声合成を実現する。
Fre-GANは0.03 MOSのギャップを持つ高忠実な波形を生成する。
論文 参考訳(メタデータ) (2021-06-04T07:12:39Z) - HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis [153.48507947322886]
HiFiSingerは、高忠実な歌声に対するSVSシステムである。
FastSpeechベースの音響モデルとParallel WaveGANベースのボコーダで構成されている。
実験の結果,HiFiSingerは高品質な歌声を合成することがわかった。
論文 参考訳(メタデータ) (2020-09-03T16:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。