論文の概要: iSTFTNet2: Faster and More Lightweight iSTFT-Based Neural Vocoder Using
1D-2D CNN
- arxiv url: http://arxiv.org/abs/2308.07117v1
- Date: Mon, 14 Aug 2023 12:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-15 13:17:16.532604
- Title: iSTFTNet2: Faster and More Lightweight iSTFT-Based Neural Vocoder Using
1D-2D CNN
- Title(参考訳): 1D-2D CNNを用いたiSTFTNet2の高速化と軽量化
- Authors: Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Shogo Seki
- Abstract要約: 逆の短時間フーリエ変換ネットワーク(iSTFTNet)は、高速で軽量で高忠実な音声合成のために注目を集めている。
1次元CNNと2次元CNNを用いて時間・分光図構造をモデル化したiSTFTNetの改良版iSTFTNet2を提案する。
- 参考スコア(独自算出の注目度): 37.32786330765437
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The inverse short-time Fourier transform network (iSTFTNet) has garnered
attention owing to its fast, lightweight, and high-fidelity speech synthesis.
It obtains these characteristics using a fast and lightweight 1D CNN as the
backbone and replacing some neural processes with iSTFT. Owing to the
difficulty of a 1D CNN to model high-dimensional spectrograms, the frequency
dimension is reduced via temporal upsampling. However, this strategy
compromises the potential to enhance the speed. Therefore, we propose
iSTFTNet2, an improved variant of iSTFTNet with a 1D-2D CNN that employs 1D and
2D CNNs to model temporal and spectrogram structures, respectively. We designed
a 2D CNN that performs frequency upsampling after conversion in a few-frequency
space. This design facilitates the modeling of high-dimensional spectrograms
without compromising the speed. The results demonstrated that iSTFTNet2 made
iSTFTNet faster and more lightweight with comparable speech quality. Audio
samples are available at
https://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/istftnet2/.
- Abstract(参考訳): 逆短時間フーリエ変換ネットワーク(istftnet)はその高速で軽量で高忠実な音声合成のために注目を集めている。
高速で軽量な1D CNNをバックボーンとし、いくつかのニューラルプロセスをiSTFTで置き換えることで、これらの特性を得る。
高次元スペクトログラムをモデル化する1次元CNNの難しさにより、周波数次元は時間的アップサンプリングにより減少する。
しかし、この戦略は速度を向上する可能性を損なう。
そこで我々は, 時間構造と分光図構造をモデル化する1D-2D CNNと2D CNNを用いて, iSTFTNetの改良版iSTFTNet2を提案する。
少数の周波数空間で変換後の周波数アップサンプリングを行う2次元CNNを設計した。
この設計は、速度を損なうことなく高次元スペクトログラムのモデリングを容易にする。
その結果、iSTFTNet2はiSTFTNetを高速かつ軽量にし、同等の音声品質を実現した。
オーディオサンプルはhttps://www.kecl.ntt.co.jp/people/kaneko.takuhiro/projects/istftnet2/で入手できる。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Deep Learning for In-Orbit Cloud Segmentation and Classification in
Hyperspectral Satellite Data [0.7574855592708002]
本稿では、ハイパースペクトル衛星を用いたクラウド検出のための最新の畳み込みニューラルネットワーク(CNN)について検討する。
クラウドセグメンテーションと分類のための最新の1D CNN(1D-Justo-LiuNet)と最近の2D CNN(nnU-netと2D-Justo-UNet-Simple)の性能を評価する。
論文 参考訳(メタデータ) (2024-03-13T16:58:37Z) - HiFTNet: A Fast High-Quality Neural Vocoder with Harmonic-plus-Noise
Filter and Inverse Short Time Fourier Transform [21.896817015593122]
時間周波数領域に高調波+雑音源フィルタを組み込んだiSTFTNet(HiFTNet)の拡張を提案する。
LJSpeech の主観評価では,iSTFTNet と HiFi-GAN のどちらよりも優れていた。
私たちの研究は、効率的で高品質なニューラルボコーディングのための新しいベンチマークを設定し、リアルタイムアプリケーションへの道を開いた。
論文 参考訳(メタデータ) (2023-09-18T05:30:15Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - WaveCNet: Wavelet Integrated CNNs to Suppress Aliasing Effect for
Noise-Robust Image Classification [41.94702591058716]
畳み込みニューラルネットワーク(CNN)はノイズを遮断する傾向がある。
我々は、共通のダウンサンプリングを離散ウェーブレット変換(DWT)に置き換えることで、CNNとウェーブレットを統合することを試みる。
我々はまた、ImageNet、ImageNet-C、および6つの敵攻撃のノイズバージョンでWaveCNetsの性能を検証した。
論文 参考訳(メタデータ) (2021-07-28T12:59:15Z) - SpectralNET: Exploring Spatial-Spectral WaveletCNN for Hyperspectral
Image Classification [0.0]
畳み込みニューラルネットワーク(CNN)を用いたハイパースペクトル画像(HSI)分類は,現在の文献に広く見られる。
マルチ解像度HSI分類のための2次元CNNのバリエーションであるウェーブレットCNNであるSpectralNETを提案する。
論文 参考訳(メタデータ) (2021-04-01T08:45:15Z) - FATNN: Fast and Accurate Ternary Neural Networks [89.07796377047619]
Ternary Neural Networks (TNN) は、完全な精度のニューラルネットワークよりもはるかに高速で、電力効率が高いため、多くの注目を集めている。
そこで本研究では、3次内積の計算複雑性を2。
性能ギャップを軽減するために,実装に依存した3次量子化アルゴリズムを精巧に設計する。
論文 参考訳(メタデータ) (2020-08-12T04:26:18Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z) - FastWave: Accelerating Autoregressive Convolutional Neural Networks on
FPGA [27.50143717931293]
WaveNetは、拡張畳み込みの複数のレイヤで構成された、深く自己回帰的なCNNである。
我々は,自己回帰畳み込みニューラルネットワークのための最初のアクセラレータtextitFastWaveを開発した。
論文 参考訳(メタデータ) (2020-02-09T06:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。