論文の概要: FastFit: Towards Real-Time Iterative Neural Vocoder by Replacing U-Net
Encoder With Multiple STFTs
- arxiv url: http://arxiv.org/abs/2305.10823v1
- Date: Thu, 18 May 2023 09:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 16:02:29.570601
- Title: FastFit: Towards Real-Time Iterative Neural Vocoder by Replacing U-Net
Encoder With Multiple STFTs
- Title(参考訳): FastFit: 複数のSTFTでU-Netエンコーダを置き換えたリアルタイム反復型ニューラルヴォコーダ
- Authors: Won Jang, Dan Lim, Heayoung Park
- Abstract要約: FastFitは、U-Netエンコーダを複数の短時間フーリエ変換(STFT)に置き換える新しいニューラルボコーダアーキテクチャである。
我々は,FastFitが高音質を維持しつつ,ベースラインベースボコーダの生成速度を約2倍に向上することを示す。
- 参考スコア(独自算出の注目度): 1.8047694351309207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents FastFit, a novel neural vocoder architecture that
replaces the U-Net encoder with multiple short-time Fourier transforms (STFTs)
to achieve faster generation rates without sacrificing sample quality. We
replaced each encoder block with an STFT, with parameters equal to the temporal
resolution of each decoder block, leading to the skip connection. FastFit
reduces the number of parameters and the generation time of the model by almost
half while maintaining high fidelity. Through objective and subjective
evaluations, we demonstrated that the proposed model achieves nearly twice the
generation speed of baseline iteration-based vocoders while maintaining high
sound quality. We further showed that FastFit produces sound qualities similar
to those of other baselines in text-to-speech evaluation scenarios, including
multi-speaker and zero-shot text-to-speech.
- Abstract(参考訳): 本稿では,u-netエンコーダを複数の短時間フーリエ変換(stft)に置き換え,サンプル品質を犠牲にすることなく高速な生成速度を実現する,新しいニューラルボコーダアーキテクチャであるfastfitを提案する。
各エンコーダブロックをstftに置き換え,各デコーダブロックの時間分解能と等価なパラメータを用いてスキップ接続を行った。
FastFitは、高い忠実性を維持しながら、パラメータの数とモデルの生成時間をほぼ半分削減する。
主観的および主観的評価により,提案モデルは高音質を維持しつつ,ベースライン反復型ボコーダの生成速度を約2倍に向上することを示した。
さらに、FastFitは、マルチスピーカやゼロショット音声を含むテキスト音声評価シナリオにおいて、他のベースラインと同様の音質を生成することを示した。
関連論文リスト
- Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - HiFTNet: A Fast High-Quality Neural Vocoder with Harmonic-plus-Noise
Filter and Inverse Short Time Fourier Transform [21.896817015593122]
時間周波数領域に高調波+雑音源フィルタを組み込んだiSTFTNet(HiFTNet)の拡張を提案する。
LJSpeech の主観評価では,iSTFTNet と HiFi-GAN のどちらよりも優れていた。
私たちの研究は、効率的で高品質なニューラルボコーディングのための新しいベンチマークを設定し、リアルタイムアプリケーションへの道を開いた。
論文 参考訳(メタデータ) (2023-09-18T05:30:15Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - Latent-Domain Predictive Neural Speech Coding [22.65761249591267]
本稿では,VQ-VAEフレームワークに潜在ドメイン予測符号化を導入する。
本稿では,低レイテンシなニューラル音声符号化のためのTF-Codecをエンドツーエンドで提案する。
多言語音声データセットの主観的な結果から、低レイテンシでは1kbpsのTF-Codecは9kbpsよりも大幅に品質が向上することが示された。
論文 参考訳(メタデータ) (2022-07-18T03:18:08Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - End-to-End Neural Audio Coding for Real-Time Communications [22.699018098484707]
本稿では、リアルタイム通信(RTC)のための低レイテンシでエンドツーエンドのニューラルオーディオシステムTFNetを提案する。
短期的および長期的両方の時間的依存関係をキャプチャするために,時間的フィルタリングのためのインターリーブ構造を提案する。
エンドツーエンドの最適化により、TFNetは音声強調とパケットロスの隠蔽を共同で最適化し、3つのタスクに1対1のネットワークを提供する。
論文 参考訳(メタデータ) (2022-01-24T03:06:30Z) - A Streamwise GAN Vocoder for Wideband Speech Coding at Very Low Bit Rate [8.312162364318235]
本稿では、1.6kbit/sで符号化されたパラメータから広帯域音声波形を生成することができるGANボコーダを提案する。
提案モデルは,フレーム単位で動作可能なStyleMelGANボコーダの改良版である。
論文 参考訳(メタデータ) (2021-08-09T14:03:07Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。