論文の概要: Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models
- arxiv url: http://arxiv.org/abs/2301.12661v1
- Date: Mon, 30 Jan 2023 04:44:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 15:46:28.304436
- Title: Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models
- Title(参考訳): make-an-audio:プロンプトエンハンス拡散モデルを用いたテキスト音声生成
- Authors: Rongjie Huang, Jiawei Huang, Dongchao Yang, Yi Ren, Luping Liu, Mingze
Li, Zhenhui Ye, Jinglin Liu, Xiang Yin, Zhou Zhao
- Abstract要約: マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
- 参考スコア(独自算出の注目度): 65.18102159618631
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale multimodal generative modeling has created milestones in
text-to-image and text-to-video generation. Its application to audio still lags
behind for two main reasons: the lack of large-scale datasets with high-quality
text-audio pairs, and the complexity of modeling long continuous audio data. In
this work, we propose Make-An-Audio with a prompt-enhanced diffusion model that
addresses these gaps by 1) introducing pseudo prompt enhancement with a
distill-then-reprogram approach, it alleviates data scarcity with orders of
magnitude concept compositions by using language-free audios; 2) leveraging
spectrogram autoencoder to predict the self-supervised audio representation
instead of waveforms. Together with robust contrastive language-audio
pretraining (CLAP) representations, Make-An-Audio achieves state-of-the-art
results in both objective and subjective benchmark evaluation. Moreover, we
present its controllability and generalization for X-to-Audio with "No Modality
Left Behind", for the first time unlocking the ability to generate
high-definition, high-fidelity audios given a user-defined modality input.
Audio samples are available at https://Text-to-Audio.github.io
- Abstract(参考訳): 大規模マルチモーダル生成モデリングは、テキストから画像への生成とテキストからビデオへの生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続オーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本研究では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
1) 蒸留処理による擬似的プロンプト強化を導入し, 言語のない音声を用いて, 等級概念構成の順序でデータ不足を軽減する。
2) スペクトルオートエンコーダを用いて波形の代わりに自己教師型音声表現を予測する。
Make-An-Audioは、頑健なコントラスト言語-オーディオ事前学習(CLAP)表現とともに、客観的および主観的なベンチマーク評価において最先端の結果を達成する。
さらに,ユーザ定義のモダリティ入力により,高精細な高忠実度音声を生成する能力を初めて解き放たれた,"no modality left behind"のx-to-audioの制御性と一般化を提案する。
オーディオサンプルはhttps://Text-to-Audio.github.ioで入手できる。
関連論文リスト
- Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - Audiobox: Unified Audio Generation with Natural Language Prompts [37.39834044113061]
本稿では,様々な音響モダリティを生成可能なフローマッチングに基づく統一モデルであるAudioboxを提案する。
我々は、制御性を高め、音声および音声生成パラダイムを統一するために、記述ベースおよび例ベースプロンプトを設計する。
Audioboxは、音声と音声の生成に関する新しいベンチマークを設定し、新しい音声と音響のスタイルで音声を生成する新しいメソッドをアンロックする。
論文 参考訳(メタデータ) (2023-12-25T22:24:49Z) - Retrieval-Augmented Text-to-Audio Generation [36.328134891428085]
本稿では,AudioLDMのような最先端モデルが,その世代性能に偏っていることを示す。
本稿では,TTAモデルに対する単純な検索拡張手法を提案する。
Re-AudioLDMは、複雑なシーン、稀なオーディオクラス、さらには目に見えないオーディオタイプに対して、現実的なオーディオを生成することができる。
論文 参考訳(メタデータ) (2023-09-14T22:35:39Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - FastLTS: Non-Autoregressive End-to-End Unconstrained Lip-to-Speech
Synthesis [77.06890315052563]
我々は、低レイテンシで非拘束音声から高品質な音声を直接合成できる非自己回帰的エンドツーエンドモデルであるFastLTSを提案する。
実験により,本モデルは3秒の入力シーケンスにおける現在の自己回帰モデルと比較して,音声生成の19.76倍の高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2022-07-08T10:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。