論文の概要: Streamable Neural Audio Synthesis With Non-Causal Convolutions
- arxiv url: http://arxiv.org/abs/2204.07064v1
- Date: Thu, 14 Apr 2022 16:00:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 16:26:45.803964
- Title: Streamable Neural Audio Synthesis With Non-Causal Convolutions
- Title(参考訳): 非因果的畳み込みを用いたストリーミング型ニューラルオーディオ合成
- Authors: Antoine Caillon and Philippe Esling
- Abstract要約: 非因果的ストリーミングモデルを生成するための新しい手法を提案する。
これにより、任意の畳み込みモデルをリアルタイムバッファベースの処理と互換性を持たせることができる。
並列ブランチで複雑なアーキテクチャに適合させる方法を示す。
- 参考スコア(独自算出の注目度): 1.8275108630751844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models are mostly used in an offline inference fashion.
However, this strongly limits the use of these models inside audio generation
setups, as most creative workflows are based on real-time digital signal
processing. Although approaches based on recurrent networks can be naturally
adapted to this buffer-based computation, the use of convolutions still poses
some serious challenges. To tackle this issue, the use of causal streaming
convolutions have been proposed. However, this requires specific complexified
training and can impact the resulting audio quality.
In this paper, we introduce a new method allowing to produce non-causal
streaming models. This allows to make any convolutional model compatible with
real-time buffer-based processing. As our method is based on a post-training
reconfiguration of the model, we show that it is able to transform models
trained without causal constraints into a streaming model. We show how our
method can be adapted to fit complex architectures with parallel branches. To
evaluate our method, we apply it on the recent RAVE model, which provides
high-quality real-time audio synthesis. We test our approach on multiple music
and speech datasets and show that it is faster than overlap-add methods, while
having no impact on the generation quality. Finally, we introduce two
open-source implementation of our work as Max/MSP and PureData externals, and
as a VST audio plugin. This allows to endow traditional digital audio
workstation with real-time neural audio synthesis on a laptop CPU.
- Abstract(参考訳): ディープラーニングモデルは、主にオフライン推論方式で使用される。
しかし、ほとんどのクリエイティブワークフローはリアルタイムのデジタル信号処理に基づいているため、オーディオ生成装置内でのこれらのモデルの使用を強く制限する。
リカレントネットワークに基づくアプローチはこのバッファベースの計算に自然に適用できるが、畳み込みの利用は依然として深刻な課題となっている。
この問題に対処するために,因果的ストリーミング畳み込みの利用が提案されている。
しかし、これは特定の複雑なトレーニングを必要とし、結果のオーディオ品質に影響を与える可能性がある。
本稿では,非causalストリーミングモデルを作成するための新しい手法を提案する。
これにより、任意の畳み込みモデルをリアルタイムバッファベースの処理と互換性を持たせることができる。
本手法は,学習後のモデル再構成に基づいており,因果制約を伴わずにトレーニングしたモデルをストリーミングモデルに変換することができることを示す。
本手法を並列分岐を用いた複雑なアーキテクチャに適用する方法を示す。
提案手法を評価するため,高品質なリアルタイム音声合成を実現するRAVEモデルに適用した。
我々は,複数の音楽および音声データセットに対するアプローチをテストし,重複付加法よりも高速で,生成品質に影響を与えないことを示す。
最後に、max/mspとpuredata externalsの2つのオープンソース実装と、vst audioプラグインを紹介します。
これにより、従来のデジタルオーディオワークステーションをラップトップCPU上でリアルタイムのニューラルオーディオ合成で実現することができる。
関連論文リスト
- SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。
本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。
実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-06-01T06:40:22Z) - From Discrete Tokens to High-Fidelity Audio Using Multi-Band Diffusion [84.138804145918]
深層生成モデルは、様々な種類の表現で条件付けられた高忠実度オーディオを生成することができる。
これらのモデルは、条件付けに欠陥がある場合や不完全な場合、可聴アーチファクトを生成する傾向がある。
低ビットレート離散表現から任意の種類のオーディオモダリティを生成する高忠実度マルチバンド拡散ベースフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T22:14:29Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - Differentiable Duration Modeling for End-to-End Text-to-Speech [6.571447892202893]
並列テキスト音声合成(TTS)モデルは,最近,高速で自然な音声合成を実現している。
本稿では,入力と出力のモノトニックシーケンスを学習するための可変長法を提案する。
本モデルでは,高忠実度合成を,対向学習と全地下構造時間との整合性の組み合わせにより学習する。
論文 参考訳(メタデータ) (2022-03-21T15:14:44Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - MTCRNN: A multi-scale RNN for directed audio texture synthesis [0.0]
本稿では,異なる抽象レベルで訓練された繰り返しニューラルネットワークと,ユーザ指向の合成を可能にする条件付け戦略を組み合わせたテクスチャのモデリング手法を提案する。
モデルの性能を様々なデータセットで実証し、その性能を様々なメトリクスで検証し、潜在的なアプリケーションについて議論する。
論文 参考訳(メタデータ) (2020-11-25T09:13:53Z) - Audio Dequantization for High Fidelity Audio Generation in Flow-based
Neural Vocoder [29.63675159839434]
フローベースのニューラルボコーダは、リアルタイム音声生成タスクにおいて大幅に改善されている。
フローベースニューラルボコーダにおける高忠実度音声生成のための音声復調手法を提案する。
論文 参考訳(メタデータ) (2020-08-16T09:37:18Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。