論文の概要: Diffsound: Discrete Diffusion Model for Text-to-sound Generation
- arxiv url: http://arxiv.org/abs/2207.09983v2
- Date: Fri, 28 Apr 2023 07:45:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 17:50:01.215479
- Title: Diffsound: Discrete Diffusion Model for Text-to-sound Generation
- Title(参考訳): Diffsound:テキスト音声生成のための離散拡散モデル
- Authors: Dongchao Yang, Jianwei Yu, Helin Wang, Wen Wang, Chao Weng, Yuexian
Zou, and Dong Yu
- Abstract要約: 本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
- 参考スコア(独自算出の注目度): 78.4128796899781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating sound effects that humans want is an important topic. However,
there are few studies in this area for sound generation. In this study, we
investigate generating sound conditioned on a text prompt and propose a novel
text-to-sound generation framework that consists of a text encoder, a Vector
Quantized Variational Autoencoder (VQ-VAE), a decoder, and a vocoder. The
framework first uses the decoder to transfer the text features extracted from
the text encoder to a mel-spectrogram with the help of VQ-VAE, and then the
vocoder is used to transform the generated mel-spectrogram into a waveform. We
found that the decoder significantly influences the generation performance.
Thus, we focus on designing a good decoder in this study. We begin with the
traditional autoregressive decoder, which has been proved as a state-of-the-art
method in previous sound generation works. However, the AR decoder always
predicts the mel-spectrogram tokens one by one in order, which introduces the
unidirectional bias and accumulation of errors problems. Moreover, with the AR
decoder, the sound generation time increases linearly with the sound duration.
To overcome the shortcomings introduced by AR decoders, we propose a
non-autoregressive decoder based on the discrete diffusion model, named
Diffsound. Specifically, the Diffsound predicts all of the mel-spectrogram
tokens in one step and then refines the predicted tokens in the next step, so
the best-predicted results can be obtained after several steps. Our experiments
show that our proposed Diffsound not only produces better text-to-sound
generation results when compared with the AR decoder but also has a faster
generation speed, e.g., MOS: 3.56 \textit{v.s} 2.786, and the generation speed
is five times faster than the AR decoder.
- Abstract(参考訳): 人間が望む音響効果の生成は重要なトピックである。
しかし、この地域では音の発生に関する研究は少ない。
本研究では,テキストプロンプトに条件付き音声を生成することを検討するとともに,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークはまずデコーダを使用して、テキストエンコーダから抽出されたテキストの特徴をvq-vaeの助けを借りてメルスペクトログラムに転送し、その後、生成されたメルスペクトログラムを波形に変換するためにvocoderを使用する。
我々は、デコーダが生成性能に大きな影響を与えることを見出した。
そこで本研究では,優れたデコーダの設計に注目する。
従来の自己回帰デコーダから始まり、従来の音響生成において最先端の手法として証明されてきた。
しかし、arデコーダは常にメル・スペクトログラムトークンを順に1つずつ予測し、一方向バイアスとエラーの蓄積をもたらす。
また、arデコーダでは、音の持続時間とともに音発生時間が直線的に増加する。
arデコーダの欠点を克服するため,離散拡散モデルに基づく非自己回帰デコーダdiffsoundを提案する。
具体的には、Diffsoundは1ステップで全てのメル-スペクトログラムトークンを予測し、次のステップで予測トークンを洗練し、いくつかのステップで最良の予測結果が得られる。
実験の結果,提案するdiffsoundはarデコーダに比べて優れたテキスト対音声生成結果を生成するだけでなく,mos: 3.56 \textit{v.s} 2.786のような高速な生成速度を示し,arデコーダよりも5倍高速であることがわかった。
関連論文リスト
- Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement [1.4037575966075835]
生のオーディオの1Dフィルターは訓練が困難で、しばしば不安定に悩まされる。
これらの問題は、理論駆動とデータ駆動のアプローチを組み合わせたハイブリッドソリューションによって解決される。
論文 参考訳(メタデータ) (2024-08-30T15:49:31Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Text-Driven Foley Sound Generation With Latent Diffusion Model [33.4636070590045]
Foley Sound Generationは、マルチメディアコンテンツのための背景音を合成することを目的としている。
テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
論文 参考訳(メタデータ) (2023-06-17T14:16:24Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Masked Autoencoders that Listen [79.99280830830854]
本稿では,画像ベースMasked Autoencoders(MAE)の音声スペクトログラムからの自己教師型表現学習への簡単な拡張について検討する。
MAEにおけるTransformer encoder-decoderの設計に続いて、Audio-MAEはまず、ハイマスキング比でオーディオスペクトログラムパッチを符号化し、エンコーダ層を介して非マスキングトークンのみを供給します。
次にデコーダは、入力スペクトログラムを再構築するために、マスクトークンでパッドされたエンコードされたコンテキストを再注文し、デコードする。
論文 参考訳(メタデータ) (2022-07-13T17:59:55Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - A Streamwise GAN Vocoder for Wideband Speech Coding at Very Low Bit Rate [8.312162364318235]
本稿では、1.6kbit/sで符号化されたパラメータから広帯域音声波形を生成することができるGANボコーダを提案する。
提案モデルは,フレーム単位で動作可能なStyleMelGANボコーダの改良版である。
論文 参考訳(メタデータ) (2021-08-09T14:03:07Z) - On Sparsifying Encoder Outputs in Sequence-to-Sequence Models [90.58793284654692]
我々はTransformerをテストベッドとして、エンコーダとデコーダの間にあるゲートの層を導入します。
ゲートは、パリシティ誘導L0ペナルティの期待値を用いて正規化される。
このスペーサー化が2つの機械翻訳と2つの要約タスクに与える影響について検討する。
論文 参考訳(メタデータ) (2020-04-24T16:57:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。