論文の概要: iSTFTNet: Fast and Lightweight Mel-Spectrogram Vocoder Incorporating
Inverse Short-Time Fourier Transform
- arxiv url: http://arxiv.org/abs/2203.02395v1
- Date: Fri, 4 Mar 2022 16:05:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-07 14:34:58.356962
- Title: iSTFTNet: Fast and Lightweight Mel-Spectrogram Vocoder Incorporating
Inverse Short-Time Fourier Transform
- Title(参考訳): iSTFTNet:逆短周期フーリエ変換を組み込んだ高速軽量メルスペクトログラムヴォコーダ
- Authors: Takuhiro Kaneko, Kou Tanaka, Hirokazu Kameoka, Shogo Seki
- Abstract要約: メルスペクトルボコーダは、元のスケールのスペクトルの復元、位相再構成、周波数から時間への変換という3つの逆問題を解く必要がある。
典型的な畳み込みメル-スペクトログラムボコーダは、畳み込みニューラルネットワークを用いてこれらの問題を共同で暗黙的に解決する。
我々は,メルスペクトルボコーダの出力側層を,逆ショートタイムフーリエ変換に置き換えるiSTFTNetを提案する。
- 参考スコア(独自算出の注目度): 38.271530231451834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent text-to-speech synthesis and voice conversion systems, a
mel-spectrogram is commonly applied as an intermediate representation, and the
necessity for a mel-spectrogram vocoder is increasing. A mel-spectrogram
vocoder must solve three inverse problems: recovery of the original-scale
magnitude spectrogram, phase reconstruction, and frequency-to-time conversion.
A typical convolutional mel-spectrogram vocoder solves these problems jointly
and implicitly using a convolutional neural network, including temporal
upsampling layers, when directly calculating a raw waveform. Such an approach
allows skipping redundant processes during waveform synthesis (e.g., the direct
reconstruction of high-dimensional original-scale spectrograms). By contrast,
the approach solves all problems in a black box and cannot effectively employ
the time-frequency structures existing in a mel-spectrogram. We thus propose
iSTFTNet, which replaces some output-side layers of the mel-spectrogram vocoder
with the inverse short-time Fourier transform (iSTFT) after sufficiently
reducing the frequency dimension using upsampling layers, reducing the
computational cost from black-box modeling and avoiding redundant estimations
of high-dimensional spectrograms. During our experiments, we applied our ideas
to three HiFi-GAN variants and made the models faster and more lightweight with
a reasonable speech quality. Audio samples are available at
https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/istftnet/.
- Abstract(参考訳): 近年のテキスト音声合成・音声変換システムでは,中間表現としてメルスペクトルが一般的に適用され,メルスペクトルヴォコーダの必要性が高まっている。
メルスペクトルボコーダは、元のスケールのスペクトルの復元、位相再構成、周波数から時間への変換という3つの逆問題を解く必要がある。
典型的な畳み込みメル-スペクトログラムボコーダは、生波形を直接計算する際に、時間的アップサンプリング層を含む畳み込みニューラルネットワークを用いて、これらの問題を共同で暗黙的に解決する。
このようなアプローチにより、波形合成中に冗長なプロセスをスキップすることができる(例えば、高次元の原スケール分光図の直接再構成)。
対照的に、この手法はブラックボックス内の全ての問題を解き、メル-スペクトログラムに存在する時間周波数構造を効果的に利用できない。
そこで本稿では,アップサンプリング層を用いて周波数次元を十分に低減し,ブラックボックスモデリングによる計算コストを低減し,高次元スペクトルの冗長な推定を回避することで,メルスペクトルボコーダの出力側層を逆ショートタイムフーリエ変換(iSTFT)に置き換えるiSTFTNetを提案する。
実験では,3つのhifi-gan変種に適用し,適切な音声品質でモデルを高速かつ軽量にすることを試みた。
オーディオサンプルはhttps://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/istftnet/で入手できる。
関連論文リスト
- Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis [1.4277428617774877]
フーリエスペクトル係数を直接生成する新しいモデルであるVocosを提案する。
計算効率を大幅に向上し、時間領域のニューラルネットワークのボコーディングアプローチに比べて、桁違いにスピードが向上する。
論文 参考訳(メタデータ) (2023-06-01T15:40:32Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Defects of Convolutional Decoder Networks in Frequency Representation [34.70224140460288]
カスケード畳み込みデコーダネットワークの表現欠陥を実証する。
我々はデコーダネットワークの中間層において特徴写像の各チャネルに離散フーリエ変換を行う。
論文 参考訳(メタデータ) (2022-10-17T12:42:29Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - Learning Wave Propagation with Attention-Based Convolutional Recurrent
Autoencoder Net [0.0]
本稿では、波動伝播現象のデータ駆動モデリングのための、エンド・ツー・エンドの注意に基づく畳み込み再帰型オートエンコーダ(AB-CRAN)ネットワークを提案する。
波動伝搬に時間依存の双曲偏微分方程式で与えられる全階スナップショットから、デノナイジングに基づく畳み込みオートエンコーダを用いる。
注意に基づくシーケンス・ツー・シーケンス・ネットワークは、通常のRNN-LSTMと比較して、予測の時間-水平を5倍増加させる。
論文 参考訳(メタデータ) (2022-01-17T20:51:59Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z) - Unsupervised Cross-Domain Speech-to-Speech Conversion with
Time-Frequency Consistency [14.062850439230111]
本稿では,逆行訓練におけるスペクトルの整合性を促進する条件を提案する。
Librispeech corpus を用いた実験結果から,TF の整合性で訓練したモデルにより,音声から音声への変換の精度が向上することが示唆された。
論文 参考訳(メタデータ) (2020-05-15T22:27:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。