論文の概要: Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis
- arxiv url: http://arxiv.org/abs/2306.00814v3
- Date: Wed, 29 May 2024 14:21:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 02:31:12.086827
- Title: Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis
- Title(参考訳): Vocos: 高品質音声合成のための時間領域とフーリエベースニューラルボコーダのギャップを埋める
- Authors: Hubert Siuzdak,
- Abstract要約: フーリエスペクトル係数を直接生成する新しいモデルであるVocosを提案する。
計算効率を大幅に向上し、時間領域のニューラルネットワークのボコーディングアプローチに比べて、桁違いにスピードが向上する。
- 参考スコア(独自算出の注目度): 1.4277428617774877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in neural vocoding are predominantly driven by Generative Adversarial Networks (GANs) operating in the time-domain. While effective, this approach neglects the inductive bias offered by time-frequency representations, resulting in reduntant and computionally-intensive upsampling operations. Fourier-based time-frequency representation is an appealing alternative, aligning more accurately with human auditory perception, and benefitting from well-established fast algorithms for its computation. Nevertheless, direct reconstruction of complex-valued spectrograms has been historically problematic, primarily due to phase recovery issues. This study seeks to close this gap by presenting Vocos, a new model that directly generates Fourier spectral coefficients. Vocos not only matches the state-of-the-art in audio quality, as demonstrated in our evaluations, but it also substantially improves computational efficiency, achieving an order of magnitude increase in speed compared to prevailing time-domain neural vocoding approaches. The source code and model weights have been open-sourced at https://github.com/gemelo-ai/vocos.
- Abstract(参考訳): ニューラルヴォコーディングの最近の進歩は、主に時間領域で動作するジェネレーティブ・アドバイサル・ネットワーク(GAN)によって駆動される。
このアプローチは有効であるが、時間周波数表現による帰納バイアスを無視し、再帰的かつ計算集約的なアップサンプリング操作をもたらす。
フーリエに基づく時間周波数表現は、人間の聴覚知覚とより正確に一致し、その計算のために確立された高速アルゴリズムの恩恵を受ける、魅力的な代替手段である。
それでも、複雑な値を持つ分光器の直接再構成は歴史的に問題であり、主に位相回復の問題が原因である。
本研究は、フーリエスペクトル係数を直接生成する新しいモデルであるVocosを提示することで、このギャップを埋めようとしている。
我々の評価で示されているように、Vocosは音質の最先端に適合するだけでなく、計算効率も大幅に向上し、時間-ドメインのニューラル・ヴォコーディング・アプローチに比べて処理速度が大幅に向上する。
ソースコードとモデルの重み付けはhttps://github.com/gemelo-ai/vocos.comでオープンソース化された。
関連論文リスト
- Resonate-and-Fire Spiking Neurons for Target Detection and Hand Gesture Recognition: A Hybrid Approach [0.8802544215891168]
レーダを用いた手動ジェスチャー認識は、しばしば計算に高価な高速フーリエ変換に依存する。
本稿では、共振・発火ニューロンを用いた高速フーリエ変換をバイパスする代替手法を提案する。
提案手法は,従来の手法に比べて複雑度を下げた競合性能を示す。
論文 参考訳(メタデータ) (2024-05-22T14:40:02Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Neural Fourier Shift for Binaural Speech Rendering [16.957415282256758]
音源の位置, 方向, 音源から音声を描画するニューラルネットワークを提案する。
フーリエ空間における音声の描画を可能にする新しいネットワークアーキテクチャであるニューラルシフト(NFS)を提案する。
論文 参考訳(メタデータ) (2022-11-02T04:55:09Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Fourier Disentangled Space-Time Attention for Aerial Video Recognition [54.80846279175762]
本稿では,UAVビデオ行動認識のためのFAR(Fourier Activity Recognition)アルゴリズムを提案する。
我々の定式化は、人間のエージェントを背景から自然に分離するために、新しいフーリエオブジェクト・ディコンタングルメント法を用いています。
我々はUAV Human RGB、UAV Human Night、Drone Action、NEC Droneを含む複数のUAVデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-03-21T01:24:53Z) - Functional Regularization for Reinforcement Learning via Learned Fourier
Features [98.90474131452588]
本稿では、入力を学習されたフーリエベースに埋め込むことにより、深層強化学習のための簡単なアーキテクチャを提案する。
その結果、状態ベースと画像ベースの両方のRLのサンプル効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-12-06T18:59:52Z) - Learning Frequency Domain Approximation for Binary Neural Networks [68.79904499480025]
フーリエ周波数領域における符号関数の勾配を正弦関数の組み合わせを用いて推定し,BNNの訓練を行う。
いくつかのベンチマークデータセットとニューラルネットワークの実験により、この手法で学習したバイナリネットワークが最先端の精度を達成することが示されている。
論文 参考訳(メタデータ) (2021-03-01T08:25:26Z) - DeepPhaseCut: Deep Relaxation in Phase for Unsupervised Fourier Phase
Retrieval [31.380061715549584]
本稿では、フーリエ位相探索のための新しい、教師なしフィードフォワードニューラルネットワークを提案する。
ニューラルネットワークを正規化用語や、教師付きトレーニングのためのエンドツーエンドのブラックボックスモデルとして使用している既存のディープラーニングアプローチとは異なり、我々のアルゴリズムは、教師なし学習フレームワークにおけるPhaseCutアルゴリズムのフィードフォワードニューラルネットワーク実装である。
我々のネットワークは2つの生成器で構成されている: 1つは位相損失を用いた位相推定用で、もう1つは画像再構成用で、これらは全て一致したデータを持たないCycleGANフレームワークを用いて同時に訓練されている。
論文 参考訳(メタデータ) (2020-11-20T16:10:08Z) - Frequency Gating: Improved Convolutional Neural Networks for Speech
Enhancement in the Time-Frequency Domain [37.722450363816144]
本稿では、CNNのカーネルの乗算重みを計算するために、周波数ゲーティングと呼ばれる手法を提案する。
スキップ接続を用いたオートエンコーダニューラルネットワークの実験では、局所的および周波数的にゲーティングの両方がベースラインを上回っている。
拡張短時間客観的インテリジェンススコア(ESTOI)に基づく損失関数を導入し、標準平均二乗誤差(MSE)損失関数より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-08T22:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。