論文の概要: JEN-1: Text-Guided Universal Music Generation with Omnidirectional
Diffusion Models
- arxiv url: http://arxiv.org/abs/2308.04729v1
- Date: Wed, 9 Aug 2023 06:27:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-10 15:02:42.020473
- Title: JEN-1: Text-Guided Universal Music Generation with Omnidirectional
Diffusion Models
- Title(参考訳): JEN-1:全方向拡散モデルを用いたテキスト誘導ユニバーサル音楽生成
- Authors: Peike Li, Boyu Chen, Yao Yao, Yikai Wang, Allen Wang, Alex Wang
- Abstract要約: 本稿では,テキスト・ツー・ミュージック・ジェネレーションのための汎用高忠実度モデルであるJEN-1を紹介する。
JEN-1は自己回帰トレーニングと非自己回帰トレーニングの両方を取り入れた拡散モデルである。
JEN-1は、テキスト・音楽のアライメントや音楽の質において、最先端の手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 16.18987351077676
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Music generation has attracted growing interest with the advancement of deep
generative models. However, generating music conditioned on textual
descriptions, known as text-to-music, remains challenging due to the complexity
of musical structures and high sampling rate requirements. Despite the task's
significance, prevailing generative models exhibit limitations in music
quality, computational efficiency, and generalization. This paper introduces
JEN-1, a universal high-fidelity model for text-to-music generation. JEN-1 is a
diffusion model incorporating both autoregressive and non-autoregressive
training. Through in-context learning, JEN-1 performs various generation tasks
including text-guided music generation, music inpainting, and continuation.
Evaluations demonstrate JEN-1's superior performance over state-of-the-art
methods in text-music alignment and music quality while maintaining
computational efficiency. Our demos are available at
http://futureverse.com/research/jen/demos/jen1
- Abstract(参考訳): 音楽生成は、深い生成モデルの発展によって関心が高まりつつある。
しかし、テキストから音楽への記述を条件とした音楽の生成は、音楽構造の複雑さと高いサンプリングレート要求のため、依然として困難である。
タスクの重要性にもかかわらず、一般的な生成モデルは音楽の品質、計算効率、一般化の限界を示す。
本稿では,テキスト・音楽生成のための汎用高忠実度モデルであるJEN-1を紹介する。
JEN-1は自己回帰トレーニングと非自己回帰トレーニングの両方を取り入れた拡散モデルである。
テキストによる学習を通じて、JEN-1はテキスト誘導音楽生成、音楽のインペインティング、継続といった様々な世代タスクを実行する。
JEN-1はテキスト・音楽アライメントや音楽品質において、計算効率を保ちながら最先端の手法よりも優れた性能を示す。
私たちのデモはhttp://futureverse.com/research/jen/demos/jen1で利用可能です。
関連論文リスト
- MusicFlow: Cascaded Flow Matching for Text Guided Music Generation [53.63948108922333]
MusicFlowは、フローマッチングに基づくケースドテキストから音楽への生成モデルである。
学習目的としてマスク予測を活用することで,音楽の充実や継続といった他のタスクにモデルを一般化することができる。
論文 参考訳(メタデータ) (2024-10-27T15:35:41Z) - Symbolic Music Generation with Fine-grained Interactive Textural Guidance [13.052085651071135]
拡散モデルにFTGを導入し,学習した分布の誤差を補正する。
シンボリック音楽生成における課題とFTGアプローチの効果について理論的特徴を導出する。
ユーザ入力によるインタラクティブな音楽生成のためのデモページを提供し,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-10-11T00:41:46Z) - JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music
Generation [20.733264277770154]
JEN-1 Composerは、マルチトラック音楽上の限界分布、条件分布、共同分布を効率的にモデル化するための統一されたフレームワークである。
単トラック生成から多トラック組合せの柔軟な生成への移行において,モデルを漸進的に指導することを目的としたカリキュラム学習戦略を導入する。
制御可能かつ高忠実なマルチトラック音楽合成における最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-29T22:51:49Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - ERNIE-Music: Text-to-Waveform Music Generation with Diffusion Models [67.66825818489406]
本稿では拡散モデルの利用を基盤としたテキストから波形への音楽生成モデルを提案する。
本手法は,波形生成プロセスの指針となる条件因子として,自由形式のテキストプロンプトの革新的導入を前提としている。
波形領域における我々の生成した音楽は、多様性、品質、およびテキスト音楽の関連性において、以前の作品よりも大きなマージンで優れていたことを実証する。
論文 参考訳(メタデータ) (2023-02-09T06:27:09Z) - Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。
生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。
トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文 参考訳(メタデータ) (2023-02-08T07:27:27Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z) - A Comprehensive Survey on Deep Music Generation: Multi-level
Representations, Algorithms, Evaluations, and Future Directions [10.179835761549471]
本稿では,深層学習を用いた音楽生成レベルの違いによる様々な作曲課題の概要について述べる。
さらに,多様なタスクに適したデータセットを要約し,音楽表現,評価方法,および異なるレベルの課題について考察し,最後にいくつかの今後の方向性を指摘する。
論文 参考訳(メタデータ) (2020-11-13T08:01:20Z) - SongNet: Rigid Formats Controlled Text Generation [51.428634666559724]
この問題に対処するために,SongNetというシンプルでエレガントなフレームワークを提案する。
フレームワークのバックボーンは、Transformerベースの自動回帰言語モデルである。
事前学習および微調整のフレームワークは、生成品質をさらに向上するために設計されている。
論文 参考訳(メタデータ) (2020-04-17T01:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。