論文の概要: MusicRL: Aligning Music Generation to Human Preferences
- arxiv url: http://arxiv.org/abs/2402.04229v1
- Date: Tue, 6 Feb 2024 18:36:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 13:27:44.300759
- Title: MusicRL: Aligning Music Generation to Human Preferences
- Title(参考訳): musicrl:音楽生成を人間の好みに合わせる
- Authors: Geoffrey Cideron, Sertan Girgin, Mauro Verzetti, Damien Vincent, Matej
Kastelic, Zal\'an Borsos, Brian McWilliams, Victor Ungureanu, Olivier Bachem,
Olivier Pietquin, Matthieu Geist, L\'eonard Hussenot, Neil Zeghidour and
Andrea Agostinelli
- Abstract要約: MusicRLは人間のフィードバックによって微調整された最初の音楽生成システムである。
ユーザに対してMusicLMをデプロイし,30,000対の選好からなる実質的なデータセットを収集する。
人間のフィードバックを大規模に組み込んだ最初のテキスト-音楽モデルであるMusicRL-Uを訓練する。
- 参考スコア(独自算出の注目度): 62.44903326718772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose MusicRL, the first music generation system finetuned from human
feedback. Appreciation of text-to-music models is particularly subjective since
the concept of musicality as well as the specific intention behind a caption
are user-dependent (e.g. a caption such as "upbeat work-out music" can map to a
retro guitar solo or a techno pop beat). Not only this makes supervised
training of such models challenging, but it also calls for integrating
continuous human feedback in their post-deployment finetuning. MusicRL is a
pretrained autoregressive MusicLM (Agostinelli et al., 2023) model of discrete
audio tokens finetuned with reinforcement learning to maximise sequence-level
rewards. We design reward functions related specifically to text-adherence and
audio quality with the help from selected raters, and use those to finetune
MusicLM into MusicRL-R. We deploy MusicLM to users and collect a substantial
dataset comprising 300,000 pairwise preferences. Using Reinforcement Learning
from Human Feedback (RLHF), we train MusicRL-U, the first text-to-music model
that incorporates human feedback at scale. Human evaluations show that both
MusicRL-R and MusicRL-U are preferred to the baseline. Ultimately, MusicRL-RU
combines the two approaches and results in the best model according to human
raters. Ablation studies shed light on the musical attributes influencing human
preferences, indicating that text adherence and quality only account for a part
of it. This underscores the prevalence of subjectivity in musical appreciation
and calls for further involvement of human listeners in the finetuning of music
generation models.
- Abstract(参考訳): 人間のフィードバックを微調整した最初の音楽生成システムであるMusicRLを提案する。
テキストから音楽へのモデルの鑑賞は特に主観的であり、音楽性の概念とキャプションの背後にある特定の意図はユーザーに依存しない(例えば「アップビート・ワークアウト・ミュージック」のようなキャプションはレトロ・ギター・ソロやテクノ・ポップ・ビートにマップすることができる)。
このようなモデルの教師付きトレーニングが難しいだけでなく、デプロイ後の微調整に継続的フィードバックを統合することも必要だ。
MusicRLは、事前訓練された自己回帰型MusicLM(Agostinelli et al., 2023)モデルであり、シーケンスレベルの報酬を最大化するために強化学習で微調整された離散オーディオトークンである。
我々は,選抜されたラッカーの助けを借りて,テキストアダランスとオーディオ品質に特化して報酬関数を設計し,それをMusicLMをMusicRL-Rに微調整する。
ユーザに対してMusicLMをデプロイし,30,000対の選好からなる実質的なデータセットを収集する。
Reinforcement Learning from Human Feedback (RLHF)を用いて,人間のフィードバックを大規模に組み込んだ最初のテキスト・音楽モデルであるMusicRL-Uを訓練する。
人間の評価では、MusicRL-RとMusicRL-Uの両方がベースラインに好まれている。
最終的に、musicrl-ruは2つのアプローチを組み合わせることで、人間の利率に応じて最適なモデルとなる。
アブレーション研究は、人間の嗜好に影響を及ぼす音楽的特性に光を当て、テキストの定着と品質がその一部にしか影響しないことを示している。
これにより、音楽鑑賞における主観性が高まり、音楽生成モデルの微調整における人間のリスナーのさらなる関与が求められる。
関連論文リスト
- Evaluating Co-Creativity using Total Information Flow [6.3289703660543495]
音楽におけるコ・クリエーション(co-creativity)とは、音楽の作曲や即興で相互に相互作用する2人以上の音楽家または音楽家を指す。
本研究では,事前学習した生成モデルを用いて情報フローをエントロピー推定器として計算する手法を提案する。
論文 参考訳(メタデータ) (2024-02-09T22:15:39Z) - Personalized Language Modeling from Personalized Human Feedback [55.458647587228185]
個人化された人間のフィードバックから学習するタスクを紹介し、この文脈でバニラRLHFが問題となる理由を説明する。
本稿では,ユーザモデルと言語(あるいは報酬)モデルを共同で学習する必要がある一般パーソナライズ-RLHFフレームワークを提案する。
提案手法の有効性を実証するために,注釈付き好みと注釈付き情報を用いた実世界のテキスト要約データを用いて検証を行った。
論文 参考訳(メタデータ) (2024-02-06T04:18:58Z) - Exploring Musical Roots: Applying Audio Embeddings to Empower Influence
Attribution for a Generative Music Model [6.476298483207895]
そこで我々は,学習データの属性を理解するのに有用な方法で,類似した楽曲を識別する手法を開発した。
VampNetのトレーニングに使用した500万本のオーディオクリップにおいて,CLMRとCLAPの埋め込みを類似度測定と比較した。
この作業は、自動的なインフルエンス属性を生成モデルに組み込むことで、モデル作成者とユーザが無知な予算から情報生成に移行することを約束する。
論文 参考訳(メタデータ) (2024-01-25T22:20:42Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Flat latent manifolds for music improvisation between human and machine [9.571383193449648]
相互即興化が新たな体験につながるような環境では,音楽生成アルゴリズムを人間の音楽家に対抗するものとみなす。
学習モデルでは、潜在空間の定量化により新しい音楽系列を生成する。
そこで我々は,音楽実験を通じて提案手法の実証的証拠を提供し,プロのドラマーと対話的なジャムセッションのためのモデルを展開した。
論文 参考訳(メタデータ) (2022-02-23T09:00:17Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z) - Learning to Generate Music With Sentiment [1.8275108630751844]
本稿では,特定の感情で音楽を構成するための生成的深層学習モデルを提案する。
音楽生成の他に、シンボリック音楽の感情分析にも同じモデルを用いることができる。
論文 参考訳(メタデータ) (2021-03-09T03:16:52Z) - RL-Duet: Online Music Accompaniment Generation Using Deep Reinforcement
Learning [69.20460466735852]
本稿では,オンライン伴奏生成のための深層強化学習アルゴリズムを提案する。
提案アルゴリズムは人体に応答し,メロディック,ハーモニック,多種多様な機械部品を生成する。
論文 参考訳(メタデータ) (2020-02-08T03:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。