論文の概要: JEN-1 DreamStyler: Customized Musical Concept Learning via Pivotal Parameters Tuning
- arxiv url: http://arxiv.org/abs/2406.12292v1
- Date: Tue, 18 Jun 2024 05:54:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 20:35:42.140325
- Title: JEN-1 DreamStyler: Customized Musical Concept Learning via Pivotal Parameters Tuning
- Title(参考訳): JEN-1 DreamStyler:Pivotalパラメータチューニングによるカスタム音楽概念学習
- Authors: Boyu Chen, Peike Li, Yao Yao, Alex Wang,
- Abstract要約: 本稿では,2分間のレファレンス音楽から概念を捉えることができるテキスト・ツー・ミュージック・ジェネレーションの新たな手法を提案する。
参照音楽を用いて、事前訓練されたテキストから音楽へのモデルを微調整することで、これを実現する。
本稿では,複数の概念を区別する概念拡張戦略を提案する。
- 参考スコア(独自算出の注目度): 18.979064278674276
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large models for text-to-music generation have achieved significant progress, facilitating the creation of high-quality and varied musical compositions from provided text prompts. However, input text prompts may not precisely capture user requirements, particularly when the objective is to generate music that embodies a specific concept derived from a designated reference collection. In this paper, we propose a novel method for customized text-to-music generation, which can capture the concept from a two-minute reference music and generate a new piece of music conforming to the concept. We achieve this by fine-tuning a pretrained text-to-music model using the reference music. However, directly fine-tuning all parameters leads to overfitting issues. To address this problem, we propose a Pivotal Parameters Tuning method that enables the model to assimilate the new concept while preserving its original generative capabilities. Additionally, we identify a potential concept conflict when introducing multiple concepts into the pretrained model. We present a concept enhancement strategy to distinguish multiple concepts, enabling the fine-tuned model to generate music incorporating either individual or multiple concepts simultaneously. Since we are the first to work on the customized music generation task, we also introduce a new dataset and evaluation protocol for the new task. Our proposed Jen1-DreamStyler outperforms several baselines in both qualitative and quantitative evaluations. Demos will be available at https://www.jenmusic.ai/research#DreamStyler.
- Abstract(参考訳): テキスト・ツー・ミュージック・ジェネレーションのための大規模なモデルは、提供されたテキスト・プロンプトから高品質で多様な音楽作品の作成を容易にし、大きな進歩を遂げた。
しかし、入力テキストプロンプトは、特に指定された参照コレクションから派生した特定の概念を具現化した音楽を生成することを目的としている場合、ユーザーの要求を正確に捉えることができない。
本稿では,2分間のレファレンス音楽からコンセプトを捉え,そのコンセプトに適合した新しい楽曲を生成する,テキスト・ツー・ミュージック・ジェネレーションの新たな手法を提案する。
参照音楽を用いて、事前訓練されたテキストから音楽へのモデルを微調整することで、これを実現する。
しかしながら、すべてのパラメータを直接微調整すると、過度な問題が発生する。
この問題に対処するために、モデルが元の生成能力を保ちながら新しい概念を同化できるようにするPivotal Parameters Tuning法を提案する。
さらに、事前訓練されたモデルに複数の概念を導入する際に、潜在的な概念衝突を特定する。
本稿では,複数の概念を区別する概念拡張戦略を提案する。
我々は、カスタマイズされた音楽生成タスクに最初に取り組み、新しいタスクのための新しいデータセットと評価プロトコルも導入する。
提案するJen1-DreamStylerは,定性評価と定量的評価の両方において,いくつかのベースラインを上回っている。
デモはhttps://www.jenmusic.ai/research#DreamStyler.comで公開される。
関連論文リスト
- Mozart's Touch: A Lightweight Multi-modal Music Generation Framework Based on Pre-Trained Large Models [9.311353871322325]
MozartのTouchは、マルチモーダルキャプションモジュール、LLM (Large Language Model) Understanding & Bridging Module、Music Generation Moduleの3つの主要コンポーネントで構成されている。
従来のアプローチとは異なり、MozartのTouchはトレーニングや微調整を必要とせず、透明で解釈可能なプロンプトを通じて効率と透明性を提供する。
論文 参考訳(メタデータ) (2024-05-05T03:15:52Z) - MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [49.935634230341904]
MC$2$と呼ばれるマルチコンセプトカスタマイズのためのマルチコンセプトガイダンスを導入し、柔軟性と忠実さを改善した。
MC$2$は、推論時間最適化を通じてモデルアーキテクチャの要件を分離する。
視覚とテキストのトークン間の注意重みを適応的に改善し、画像領域に関連した単語に集中するよう指示する。
論文 参考訳(メタデータ) (2024-04-08T07:59:04Z) - MusicRL: Aligning Music Generation to Human Preferences [62.44903326718772]
MusicRLは人間のフィードバックによって微調整された最初の音楽生成システムである。
ユーザに対してMusicLMをデプロイし,30,000対の選好からなる実質的なデータセットを収集する。
人間のフィードバックを大規模に組み込んだ最初のテキスト-音楽モデルであるMusicRL-Uを訓練する。
論文 参考訳(メタデータ) (2024-02-06T18:36:52Z) - MusicLDM: Enhancing Novelty in Text-to-Music Generation Using
Beat-Synchronous Mixup Strategies [32.482588500419006]
我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。
我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。
一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:35:37Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z) - Multi-Concept Customization of Text-to-Image Diffusion [51.8642043743222]
既存のテキスト・ツー・イメージ・モデルの効率的な拡張法であるCustom Diffusionを提案する。
テキスト・ツー・イメージ・コンディショニング機構におけるパラメータの最適化は,新しい概念を表現するのに十分強力であることがわかった。
本モデルは,複数の新しい概念のバリエーションを生成し,既存の概念を新しい設定でシームレスに構成する。
論文 参考訳(メタデータ) (2022-12-08T18:57:02Z) - Bridging Music and Text with Crowdsourced Music Comments: A
Sequence-to-Sequence Framework for Thematic Music Comments Generation [18.2750732408488]
我々はクラウドソースの音楽コメントを利用して新しいデータセットを構築し,音楽のテキスト記述を生成するシーケンス・ツー・シーケンス・モデルを提案する。
生成したテキストの信頼性とテーマ性を高めるために,識別器と新しい話題評価器を提案する。
論文 参考訳(メタデータ) (2022-09-05T14:51:51Z) - Continuous Melody Generation via Disentangled Short-Term Representations
and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。
本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。
その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文 参考訳(メタデータ) (2020-02-05T06:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。