論文の概要: MusicRL: Aligning Music Generation to Human Preferences
- arxiv url: http://arxiv.org/abs/2402.04229v1
- Date: Tue, 6 Feb 2024 18:36:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 13:27:44.300759
- Title: MusicRL: Aligning Music Generation to Human Preferences
- Title(参考訳): musicrl:音楽生成を人間の好みに合わせる
- Authors: Geoffrey Cideron, Sertan Girgin, Mauro Verzetti, Damien Vincent, Matej
Kastelic, Zal\'an Borsos, Brian McWilliams, Victor Ungureanu, Olivier Bachem,
Olivier Pietquin, Matthieu Geist, L\'eonard Hussenot, Neil Zeghidour and
Andrea Agostinelli
- Abstract要約: MusicRLは人間のフィードバックによって微調整された最初の音楽生成システムである。
ユーザに対してMusicLMをデプロイし,30,000対の選好からなる実質的なデータセットを収集する。
人間のフィードバックを大規模に組み込んだ最初のテキスト-音楽モデルであるMusicRL-Uを訓練する。
- 参考スコア(独自算出の注目度): 62.44903326718772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose MusicRL, the first music generation system finetuned from human
feedback. Appreciation of text-to-music models is particularly subjective since
the concept of musicality as well as the specific intention behind a caption
are user-dependent (e.g. a caption such as "upbeat work-out music" can map to a
retro guitar solo or a techno pop beat). Not only this makes supervised
training of such models challenging, but it also calls for integrating
continuous human feedback in their post-deployment finetuning. MusicRL is a
pretrained autoregressive MusicLM (Agostinelli et al., 2023) model of discrete
audio tokens finetuned with reinforcement learning to maximise sequence-level
rewards. We design reward functions related specifically to text-adherence and
audio quality with the help from selected raters, and use those to finetune
MusicLM into MusicRL-R. We deploy MusicLM to users and collect a substantial
dataset comprising 300,000 pairwise preferences. Using Reinforcement Learning
from Human Feedback (RLHF), we train MusicRL-U, the first text-to-music model
that incorporates human feedback at scale. Human evaluations show that both
MusicRL-R and MusicRL-U are preferred to the baseline. Ultimately, MusicRL-RU
combines the two approaches and results in the best model according to human
raters. Ablation studies shed light on the musical attributes influencing human
preferences, indicating that text adherence and quality only account for a part
of it. This underscores the prevalence of subjectivity in musical appreciation
and calls for further involvement of human listeners in the finetuning of music
generation models.
- Abstract(参考訳): 人間のフィードバックを微調整した最初の音楽生成システムであるMusicRLを提案する。
テキストから音楽へのモデルの鑑賞は特に主観的であり、音楽性の概念とキャプションの背後にある特定の意図はユーザーに依存しない(例えば「アップビート・ワークアウト・ミュージック」のようなキャプションはレトロ・ギター・ソロやテクノ・ポップ・ビートにマップすることができる)。
このようなモデルの教師付きトレーニングが難しいだけでなく、デプロイ後の微調整に継続的フィードバックを統合することも必要だ。
MusicRLは、事前訓練された自己回帰型MusicLM(Agostinelli et al., 2023)モデルであり、シーケンスレベルの報酬を最大化するために強化学習で微調整された離散オーディオトークンである。
我々は,選抜されたラッカーの助けを借りて,テキストアダランスとオーディオ品質に特化して報酬関数を設計し,それをMusicLMをMusicRL-Rに微調整する。
ユーザに対してMusicLMをデプロイし,30,000対の選好からなる実質的なデータセットを収集する。
Reinforcement Learning from Human Feedback (RLHF)を用いて,人間のフィードバックを大規模に組み込んだ最初のテキスト・音楽モデルであるMusicRL-Uを訓練する。
人間の評価では、MusicRL-RとMusicRL-Uの両方がベースラインに好まれている。
最終的に、musicrl-ruは2つのアプローチを組み合わせることで、人間の利率に応じて最適なモデルとなる。
アブレーション研究は、人間の嗜好に影響を及ぼす音楽的特性に光を当て、テキストの定着と品質がその一部にしか影響しないことを示している。
これにより、音楽鑑賞における主観性が高まり、音楽生成モデルの微調整における人間のリスナーのさらなる関与が求められる。
関連論文リスト
- Adversarial-MidiBERT: Symbolic Music Understanding Model Based on Unbias Pre-training and Mask Fine-tuning [2.61072980439312]
変換器によるバイバーサ表現に基づく記号的音楽理解モデルAdrial-MidiBERTを提案する。
逆学習に基づく非バイアス付き事前学習手法を導入し、トレーニング中にバイアスにつながるトークンの参加を最小限に抑えるとともに、事前学習と微調整のデータギャップを狭めるマスクファインチューニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-11T08:54:38Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - Exploring Musical Roots: Applying Audio Embeddings to Empower Influence
Attribution for a Generative Music Model [6.476298483207895]
そこで我々は,学習データの属性を理解するのに有用な方法で,類似した楽曲を識別する手法を開発した。
VampNetのトレーニングに使用した500万本のオーディオクリップにおいて,CLMRとCLAPの埋め込みを類似度測定と比較した。
この作業は、自動的なインフルエンス属性を生成モデルに組み込むことで、モデル作成者とユーザが無知な予算から情報生成に移行することを約束する。
論文 参考訳(メタデータ) (2024-01-25T22:20:42Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Flat latent manifolds for music improvisation between human and machine [9.571383193449648]
相互即興化が新たな体験につながるような環境では,音楽生成アルゴリズムを人間の音楽家に対抗するものとみなす。
学習モデルでは、潜在空間の定量化により新しい音楽系列を生成する。
そこで我々は,音楽実験を通じて提案手法の実証的証拠を提供し,プロのドラマーと対話的なジャムセッションのためのモデルを展開した。
論文 参考訳(メタデータ) (2022-02-23T09:00:17Z) - RL-Duet: Online Music Accompaniment Generation Using Deep Reinforcement
Learning [69.20460466735852]
本稿では,オンライン伴奏生成のための深層強化学習アルゴリズムを提案する。
提案アルゴリズムは人体に応答し,メロディック,ハーモニック,多種多様な機械部品を生成する。
論文 参考訳(メタデータ) (2020-02-08T03:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。