論文の概要: JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music
Generation
- arxiv url: http://arxiv.org/abs/2310.19180v2
- Date: Fri, 3 Nov 2023 02:27:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 16:38:30.878424
- Title: JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music
Generation
- Title(参考訳): JEN-1 Composer:高忠実なマルチトラック音楽生成のための統一フレームワーク
- Authors: Yao Yao, Peike Li, Boyu Chen, Alex Wang
- Abstract要約: JEN-1 Composerは、マルチトラック音楽上の限界分布、条件分布、共同分布を効率的にモデル化するための統一されたフレームワークである。
単トラック生成から多トラック組合せの柔軟な生成への移行において,モデルを漸進的に指導することを目的としたカリキュラム学習戦略を導入する。
制御可能かつ高忠実なマルチトラック音楽合成における最先端性能を示す。
- 参考スコア(独自算出の注目度): 20.733264277770154
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: With rapid advances in generative artificial intelligence, the text-to-music
synthesis task has emerged as a promising direction for music generation from
scratch. However, finer-grained control over multi-track generation remains an
open challenge. Existing models exhibit strong raw generation capability but
lack the flexibility to compose separate tracks and combine them in a
controllable manner, differing from typical workflows of human composers. To
address this issue, we propose JEN-1 Composer, a unified framework to
efficiently model marginal, conditional, and joint distributions over
multi-track music via a single model. JEN-1 Composer framework exhibits the
capacity to seamlessly incorporate any diffusion-based music generation system,
\textit{e.g.} Jen-1, enhancing its capacity for versatile multi-track music
generation. We introduce a curriculum training strategy aimed at incrementally
instructing the model in the transition from single-track generation to the
flexible generation of multi-track combinations. During the inference, users
have the ability to iteratively produce and choose music tracks that meet their
preferences, subsequently creating an entire musical composition incrementally
following the proposed Human-AI co-composition workflow. Quantitative and
qualitative assessments demonstrate state-of-the-art performance in
controllable and high-fidelity multi-track music synthesis. The proposed JEN-1
Composer represents a significant advance toward interactive AI-facilitated
music creation and composition. Demos will be available at
https://www.jenmusic.ai/audio-demos.
- Abstract(参考訳): 生成人工知能の急速な進歩により、テキストから音楽への合成作業がスクラッチから音楽を生成する上で有望な方向として登場した。
しかし、マルチトラック生成に対するきめ細かい制御は未解決の課題である。
既存のモデルは、強力な生生成能力を示すが、人間の作曲家の典型的なワークフローとは異なる、別々のトラックを構成し、それらを制御可能な方法で組み合わせる柔軟性に欠ける。
本研究では,単一モデルによるマルチトラック音楽の限界,条件,ジョイント分布を効率的にモデル化するための統合フレームワークであるjen-1 composerを提案する。
JEN-1 Composerフレームワークは、任意の拡散ベースの音楽生成システムである『textit{e.} Jen-1』をシームレスに組み込む能力を示し、多目的なマルチトラック音楽生成能力を高める。
単トラック生成から多トラック組合せの柔軟な生成への移行において,モデルを漸進的に指導することを目的としたカリキュラム学習戦略を導入する。
推論中、ユーザーは好みを満たす楽曲を反復的に作成、選択でき、その後、提案されたHuman-AI共作ワークフローに従って楽曲全体を段階的に作成することができる。
定量的・質的な評価は、制御可能かつ高忠実なマルチトラック音楽合成における最先端の性能を示す。
提案したJEN-1 Composerは、対話型AIによる音楽制作と作曲に向けた大きな進歩を示している。
デモはhttps://www.jenmusic.ai/audio-demosで見ることができる。
関連論文リスト
- UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。
音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文 参考訳(メタデータ) (2024-10-06T16:04:05Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation and Editing via Content-based Controls [6.176747724853209]
LLM(Large Language Models)は、高品質な音楽を生成する上で有望であるが、自動回帰生成に焦点をあてることで、音楽編集タスクにおける有用性を制限している。
本稿では,パラメータ効率の高いヘテロジニアスアダプタとマスキングトレーニングスキームを組み合わせた新しいアプローチを提案する。
提案手法は, フレームレベルのコンテンツベース制御を統合し, トラックコンディショニングとスコアコンディショニングによる音楽アレンジメントを容易にする。
論文 参考訳(メタデータ) (2024-02-14T19:00:01Z) - Performance Conditioning for Diffusion-Based Multi-Instrument Music
Synthesis [15.670399197114012]
本稿では,特定の性能と記録環境に生成モデルを条件付け,多施設合成の制御を強化することを提案する。
パフォーマンスコンディショニング(Performance Conditioning)とは、特定の演奏から採った特定の楽器のスタイルと音色で音楽を合成する生成モデルを示すツールである。
試作機は,多種多様な楽器と最先端のFADリアリズムスコアを用いた未計算性能を用いて評価した。
論文 参考訳(メタデータ) (2023-09-21T17:44:57Z) - MusicLDM: Enhancing Novelty in Text-to-Music Generation Using
Beat-Synchronous Mixup Strategies [32.482588500419006]
我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。
我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。
一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:35:37Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。
MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。
我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文 参考訳(メタデータ) (2020-08-18T02:28:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。