Fugu-MT 論文翻訳(概要): JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation

論文の概要: JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation

arxiv url: http://arxiv.org/abs/2310.19180v4
Date: Tue, 17 Dec 2024 04:08:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-18 14:58:41.054743
Title: JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation
Title（参考訳）: JEN-1 Composer:高忠実なマルチトラック音楽生成のための統一フレームワーク
Authors: Yao Yao, Peike Li, Boyu Chen, Alex Wang,
Abstract要約: JEN-1 Composerは、マルチトラック音楽上での限界分布、条件分布、共同分布を効率的にモデル化するように設計されている。本研究では、段階的なカリキュラム学習戦略を導入し、段階的に訓練作業の難しさを増大させる。提案手法は,制御可能かつ高忠実なマルチトラック音楽合成における最先端性能を示す。
参考スコア（独自算出の注目度）: 18.979064278674276
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: With rapid advances in generative artificial intelligence, the text-to-music synthesis task has emerged as a promising direction for music generation. Nevertheless, achieving precise control over multi-track generation remains an open challenge. While existing models excel in directly generating multi-track mix, their limitations become evident when it comes to composing individual tracks and integrating them in a controllable manner. This departure from the typical workflows of professional composers hinders the ability to refine details in specific tracks. To address this gap, we propose JEN-1 Composer, a unified framework designed to efficiently model marginal, conditional, and joint distributions over multi-track music using a single model. Building upon an audio latent diffusion model, JEN-1 Composer extends the versatility of multi-track music generation. We introduce a progressive curriculum training strategy, which gradually escalates the difficulty of training tasks while ensuring the model's generalization ability and facilitating smooth transitions between different scenarios. During inference, users can iteratively generate and select music tracks, thus incrementally composing entire musical pieces in accordance with the Human-AI co-composition workflow. Our approach demonstrates state-of-the-art performance in controllable and high-fidelity multi-track music synthesis, marking a significant advancement in interactive AI-assisted music creation. Our demo pages are available at www.jenmusic.ai/research.
Abstract（参考訳）: 生成人工知能の急速な進歩により、テキストから音楽への合成作業が音楽生成の有望な方向として現れてきた。それでも、マルチトラック生成の正確な制御を達成することは、未解決の課題である。既存のモデルは、直接マルチトラックミックスを生成するのに優れているが、個々のトラックを組み立て、制御可能な方法で統合することに関して、それらの制限は明らかになる。このプロの作曲家の典型的なワークフローからの離脱は、特定のトラックで詳細を洗練させる能力を妨げている。このギャップに対処するために,単一モデルを用いたマルチトラック音楽上での限界分布,条件分布,共同分布を効率的にモデル化する統合フレームワークであるJEN-1 Composerを提案する。音声遅延拡散モデルに基づいて、JEN-1 Composerはマルチトラック音楽生成の汎用性を拡張する。本稿では,モデルの一般化能力を確保しつつ,異なるシナリオ間のスムーズな移行を容易にしながら,段階的なカリキュラム学習戦略を導入する。推論中は、ユーザは、Human-AIの共同構成ワークフローに従って、楽曲を反復的に生成し、選択することができる。提案手法は、制御可能かつ高忠実なマルチトラック音楽合成における最先端性能を示し、対話型AI支援音楽生成の大幅な進歩を示す。私たちのデモページはwww.jenmusic.ai/researchで公開されています。

関連論文リスト

Muse: Towards Reproducible Long-Form Song Generation with Fine-Grained Style Control [66.46754271097555]
我々は, きめ細かなスタイル条件付き長大な楽曲生成のための, 完全オープンソースシステムをリリースする。データセットは116kの完全ライセンスの合成曲で構成され、自動生成の歌詞とスタイル記述がある。我々は、個別の音声トークンで拡張されたQwenベースの言語モデルの単一ステージ教師付き微調整によりMuseを訓練する。
論文参考訳（メタデータ） (2026-01-07T14:40:48Z)
TOMI: Transforming and Organizing Music Ideas for Multi-Track Compositions with Full-Song Structure [8.721294663967305]
ディープ・ミュージック・ジェネレーションにおける新しいアプローチとしてTOMI(Transforming and Organizing Music Ideas)を紹介する。ビデオクリップ(短い音声またはMIDIセグメント)、セクション(時間的位置)、トラック(構造層)、変換によって特徴付けられる、スパースな4次元空間を介して、多トラック合成プロセスを表現する。本モデルでは,マルチトラックの電子楽曲を全曲構造で生成することが可能であり,TOMIモデルとREAPERデジタルオーディオワークステーションをさらに統合する。
論文参考訳（メタデータ） (2025-06-29T05:15:41Z)
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文参考訳（メタデータ） (2025-02-18T18:52:21Z)
UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文参考訳（メタデータ） (2024-10-06T16:04:05Z)
SynthSOD: Developing an Heterogeneous Dataset for Orchestra Music Source Separation [7.428668206443388]
そこで本研究では,シミュレーション手法を用いて現実的なトレーニングセットを作成する,SynthSODと呼ばれる新しいマルチトラックデータセットを提案する。合成データセットw.r.tをトレーニングしたベースライン音楽分離モデルのよく知られたEnsembleSetへの適用を実演する。
論文参考訳（メタデータ） (2024-09-17T08:58:33Z)
Unifying Multitrack Music Arrangement via Reconstruction Fine-Tuning and Efficient Tokenization [10.714947060480426]
本稿では,無条件および条件付きシンボル音楽生成のための効率的なマルチトラック音楽トークンについて紹介する。事前学習された音楽用LMのシーケンス・ツー・シーケンス再構成の微調整目的は、タスク固有のニーズとコヒーレンス制約とのバランスをとる。提案手法は,目標と知覚品質の両面において,タスク固有モデルを超え,バンドアレンジメント,ピアノアレンジメント,ドラムアレンジメントの最先端結果を実現する。
論文参考訳（メタデータ） (2024-08-27T16:18:51Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
Arrange, Inpaint, and Refine: Steerable Long-term Music Audio Generation and Editing via Content-based Controls [6.176747724853209]
LLM(Large Language Models)は、高品質な音楽を生成する上で有望であるが、自動回帰生成に焦点をあてることで、音楽編集タスクにおける有用性を制限している。本稿では,パラメータ効率の高いヘテロジニアスアダプタとマスキングトレーニングスキームを組み合わせた新しいアプローチを提案する。提案手法は, フレームレベルのコンテンツベース制御を統合し, トラックコンディショニングとスコアコンディショニングによる音楽アレンジメントを容易にする。
論文参考訳（メタデータ） (2024-02-14T19:00:01Z)
Performance Conditioning for Diffusion-Based Multi-Instrument Music Synthesis [15.670399197114012]
本稿では,特定の性能と記録環境に生成モデルを条件付け,多施設合成の制御を強化することを提案する。パフォーマンスコンディショニング(Performance Conditioning)とは、特定の演奏から採った特定の楽器のスタイルと音色で音楽を合成する生成モデルを示すツールである。試作機は,多種多様な楽器と最先端のFADリアリズムスコアを用いた未計算性能を用いて評価した。
論文参考訳（メタデータ） (2023-09-21T17:44:57Z)
MusicLDM: Enhancing Novelty in Text-to-Music Generation Using Beat-Synchronous Mixup Strategies [32.482588500419006]
我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
論文参考訳（メタデータ） (2023-08-03T05:35:37Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。 GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文参考訳（メタデータ） (2023-05-18T09:53:23Z)
Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文参考訳（メタデータ） (2022-04-01T17:53:39Z)
PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。 MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文参考訳（メタデータ） (2020-08-18T02:28:36Z)
MMM : Exploring Conditional Multi-Track Music Generation with the Transformer [9.569049935824227]
マルチトラック音楽を生成することができるトランスフォーマーアーキテクチャに基づく生成システムを提案する。我々は、各トラックといくつかのトラックについて、時間順に順序付けされた音楽イベントのシーケンスを1つのシーケンスに生成する。これによりTransformerの注意機構が利用でき、長期的依存関係を十分に処理できる。
論文参考訳（メタデータ） (2020-08-13T02:36:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。