論文の概要: Mo\^usai: Text-to-Music Generation with Long-Context Latent Diffusion
- arxiv url: http://arxiv.org/abs/2301.11757v3
- Date: Mon, 23 Oct 2023 20:47:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 03:20:09.469275
- Title: Mo\^usai: Text-to-Music Generation with Long-Context Latent Diffusion
- Title(参考訳): Mo\^usai: 長期遅延拡散によるテキスト・音楽生成
- Authors: Flavio Schneider, Ojasv Kamal, Zhijing Jin, Bernhard Sch\"olkopf
- Abstract要約: 我々はテキストから音楽への生成モデルを通じてテキストと音楽をブリッジする。
具体的には、テキスト記述から48kHzで高品質なステレオ音楽の複数分間を生成できるカスケード2段階潜時拡散モデルであるMousaiを開発する。
- 参考スコア(独自算出の注目度): 27.567536688166776
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have seen the rapid development of large generative models for
text; however, much less research has explored the connection between text and
another "language" of communication -- music. Music, much like text, can convey
emotions, stories, and ideas, and has its own unique structure and syntax. In
our work, we bridge text and music via a text-to-music generation model that is
highly efficient, expressive, and can handle long-term structure. Specifically,
we develop Mo\^usai, a cascading two-stage latent diffusion model that can
generate multiple minutes of high-quality stereo music at 48kHz from textual
descriptions. Moreover, our model features high efficiency, which enables
real-time inference on a single consumer GPU with a reasonable speed. Through
experiments and property analyses, we show our model's competence over a
variety of criteria compared with existing music generation models. Lastly, to
promote the open-source culture, we provide a collection of open-source
libraries with the hope of facilitating future work in the field. We
open-source the following: Codes:
https://github.com/archinetai/audio-diffusion-pytorch; music samples for this
paper: http://bit.ly/44ozWDH; all music samples for all models:
https://bit.ly/audio-diffusion.
- Abstract(参考訳): 近年、テキストのための大規模な生成モデルが急速に発展してきたが、テキストと別の「言語」コミュニケーション(音楽)との関係について研究する研究は少なくなっている。
音楽はテキストによく似ているが、感情、物語、アイデアを伝えることができ、独自の構造と構文を持っている。
本研究は,テキスト・音楽生成モデルを用いてテキスト・音楽のブリッジを行い,高効率で表現力があり,長期的構造を扱えることを示す。
具体的には,テキスト記述から48khzで数分間の高音質ステレオ音楽を生成できる2段階の潜在拡散モデルであるmo\^usaiを開発した。
さらに,本モデルでは高効率を特徴とし,単一のコンシューマGPU上で適切な速度でリアルタイムな推論を可能にする。
実験と特性分析により,既存の音楽生成モデルと比較して,様々な基準を満たしたモデルの能力を示す。
最後に,オープンソース文化を促進するため,オープンソースライブラリのコレクションを提供し,今後の活動を促進することを期待する。
Codes: https://github.com/archinetai/audio-diffusion-pytorch; この論文の音楽サンプル: http://bit.ly/44ozWDH; すべてのモデルの音楽サンプル: https://bit.ly/audio-diffusion。
関連論文リスト
- Retrieval is Accurate Generation [104.21926758253286]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Content-based Controls For Music Large Language Modeling [6.17674772485321]
Coco-Mullaは、音楽大言語モデリングのためのコンテンツベースの制御方法である。
提案手法は,低リソース半教師付き学習による高品質な音楽生成を実現する。
本システムは,フレキシブルな音楽変化生成とスタイル転送を実現する。
論文 参考訳(メタデータ) (2023-10-26T05:24:38Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [67.66825818489406]
本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。
本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。
波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
論文 参考訳(メタデータ) (2023-02-09T06:27:09Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - ArchiSound: Audio Generation with Diffusion [0.0]
本研究では,音声生成のための拡散モデルの可能性について検討する。
重畳した1次元U-Netを用いたテキスト条件付き潜在音声拡散手法を提案する。
各モデルに対して、単一のコンシューマGPU上でリアルタイムにターゲットとする、合理的な推論速度の維持に取り組みます。
論文 参考訳(メタデータ) (2023-01-30T20:23:26Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Contrastive Audio-Language Learning for Music [13.699088044513562]
MusCALLは音楽コントラスト学習のためのフレームワークである。
本手法は,音楽音声と記述文のペアのアライメントを学習するデュアルエンコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2022-08-25T16:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。