論文の概要: It's Raw! Audio Generation with State-Space Models
- arxiv url: http://arxiv.org/abs/2202.09729v1
- Date: Sun, 20 Feb 2022 04:45:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-23 07:54:22.237601
- Title: It's Raw! Audio Generation with State-Space Models
- Title(参考訳): 生だ!
状態空間モデルによる音声生成
- Authors: Karan Goel and Albert Gu and Chris Donahue and Christopher R\'e
- Abstract要約: SaShiMiは、最近導入されたロングシーケンスモデリングのためのS4モデルを中心に構築された、波形モデリングのための新しいマルチスケールアーキテクチャである。
SaShiMiは自己回帰設定における非条件波形生成のための最先端性能を得る。
音楽生成タスクでは、SashiMiは、トレーニングと推論の両方において、密度推定と速度でWaveNetを上回っます。
- 参考スコア(独自算出の注目度): 40.011746160114214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing architectures suitable for modeling raw audio is a challenging
problem due to the high sampling rates of audio waveforms. Standard sequence
modeling approaches like RNNs and CNNs have previously been tailored to fit the
demands of audio, but the resultant architectures make undesirable
computational tradeoffs and struggle to model waveforms effectively. We propose
SaShiMi, a new multi-scale architecture for waveform modeling built around the
recently introduced S4 model for long sequence modeling. We identify that S4
can be unstable during autoregressive generation, and provide a simple
improvement to its parameterization by drawing connections to Hurwitz matrices.
SaShiMi yields state-of-the-art performance for unconditional waveform
generation in the autoregressive setting. Additionally, SaShiMi improves
non-autoregressive generation performance when used as the backbone
architecture for a diffusion model. Compared to prior architectures in the
autoregressive generation setting, SaShiMi generates piano and speech waveforms
which humans find more musical and coherent respectively, e.g. 2x better mean
opinion scores than WaveNet on an unconditional speech generation task. On a
music generation task, SaShiMi outperforms WaveNet on density estimation and
speed at both training and inference even when using 3x fewer parameters. Code
can be found at https://github.com/HazyResearch/state-spaces and samples at
https://hazyresearch.stanford.edu/sashimi-examples.
- Abstract(参考訳): 生音声のモデリングに適したアーキテクチャを開発することは、音声波形のサンプリング率が高いため、難しい問題である。
rnnやcnnのような標準的なシーケンスモデリングアプローチは、オーディオの要求に合致するように調整されてきたが、結果として得られるアーキテクチャは望ましくない計算上のトレードオフをもたらし、波形を効果的にモデル化するのに苦労している。
本稿では,最近導入されたs4モデルを中心に構築した波形モデリングのための新しいマルチスケールアーキテクチャである刺身を提案する。
我々は,自己回帰生成においてS4が不安定であることを示すとともに,Hurwitz行列への接続を描画することでパラメータ化の簡易化を実現する。
SaShiMiは自己回帰設定における非条件波形生成のための最先端性能を得る。
さらに,拡散モデルのバックボーンアーキテクチャとして使用すると,非自己回帰生成性能が向上する。
自己回帰生成設定の以前のアーキテクチャと比較すると、SaShiMiはピアノと音声の波形を生成して、例えば、無条件音声生成タスクにおいてWaveNetよりも2倍良い平均評価スコアを求める。
音楽生成タスクでは、SashiMiは3倍のパラメータを使用する場合でも、トレーニングと推論の両方において、密度推定と速度でWaveNetを上回っている。
コードはhttps://github.com/HazyResearch/state-spacesで、サンプルはhttps://hazyresearch.stanford.edu/sashimi-examplesで見ることができる。
関連論文リスト
- Accelerating High-Fidelity Waveform Generation via Adversarial Flow Matching Optimization [37.35829410807451]
本稿では,逆流マッチング最適化による高忠実かつ高効率な波形生成モデルである PeriodWave-Turbo を提案する。
さまざまな客観的メトリクスで最先端のパフォーマンスを達成するには、1,000ステップの微調整しか必要ありません。
PeriodWave のバックボーンを 29M から 70M のパラメータにスケールアップすることで、一般化を改善することで、 PeriodWave-Turbo は前例のない性能を実現している。
論文 参考訳(メタデータ) (2024-08-15T08:34:00Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z) - RAVE: A variational autoencoder for fast and high-quality neural audio
synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。
我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文 参考訳(メタデータ) (2021-11-09T09:07:30Z) - A Generative Model for Raw Audio Using Transformer Architectures [4.594159253008448]
本稿ではトランスフォーマーアーキテクチャを用いて波形レベルで音声合成を行う新しい手法を提案する。
本稿では,波形を生成するためのディープニューラルネットワークを提案する。
提案手法は,次のステップを予測するための類似データセットにおいて,広範に使用されているウェーブネットアーキテクチャを最大9%向上させる。
論文 参考訳(メタデータ) (2021-06-30T13:05:31Z) - WaveGrad 2: Iterative Refinement for Text-to-Speech Synthesis [80.60577805727624]
WaveGrad 2は音声合成のための非自己回帰生成モデルである。
最先端のニューラルTSシステムの性能に近づき、高忠実度オーディオを生成することができる。
論文 参考訳(メタデータ) (2021-06-17T17:09:21Z) - DiffWave: A Versatile Diffusion Model for Audio Synthesis [35.406438835268816]
DiffWaveは条件および非条件波形生成のための多目的拡散確率モデルである。
メルスペクトログラムに条件付けされたニューラル・ヴォイコーディングを含む、様々な波形生成タスクで高忠実なオーディオを生成する。
これは、非条件生成課題において、自己回帰およびGANベースの波形モデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-09-21T11:20:38Z) - WaveGrad: Estimating Gradients for Waveform Generation [55.405580817560754]
WaveGradは、データ密度の勾配を推定する波形生成の条件モデルである。
ガウスのホワイトノイズ信号から始まり、メル・スペクトログラムに条件付けされた勾配に基づくサンプリング器を通じて繰り返し信号の精製を行う。
6回の反復で高忠実度音声サンプルを生成できることが判明した。
論文 参考訳(メタデータ) (2020-09-02T17:44:10Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。