論文の概要: Benchmarking Music Generation Models and Metrics via Human Preference Studies
- arxiv url: http://arxiv.org/abs/2506.19085v1
- Date: Mon, 23 Jun 2025 20:01:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.368885
- Title: Benchmarking Music Generation Models and Metrics via Human Preference Studies
- Title(参考訳): 人選好研究による音楽生成モデルとメトリクスのベンチマーク
- Authors: Florian Grötschla, Ahmet Solak, Luca A. Lanzendörfer, Roger Wattenhofer,
- Abstract要約: 我々は、12の最先端モデルを用いて6k曲を生成し、2.5k人の被験者と15k対のオーディオ比較を行った。
我々の知る限りでは、この研究は人間の好みに基づいて現在最先端の音楽生成モデルとメトリクスをランク付けする最初のものである。
- 参考スコア(独自算出の注目度): 18.95453617434051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements have brought generated music closer to human-created compositions, yet evaluating these models remains challenging. While human preference is the gold standard for assessing quality, translating these subjective judgments into objective metrics, particularly for text-audio alignment and music quality, has proven difficult. In this work, we generate 6k songs using 12 state-of-the-art models and conduct a survey of 15k pairwise audio comparisons with 2.5k human participants to evaluate the correlation between human preferences and widely used metrics. To the best of our knowledge, this work is the first to rank current state-of-the-art music generation models and metrics based on human preference. To further the field of subjective metric evaluation, we provide open access to our dataset of generated music and human evaluations.
- Abstract(参考訳): 近年の進歩により、生成した音楽は人間の作曲に近づきつつあるが、これらのモデルを評価することは依然として困難である。
人間の嗜好は品質を評価するための金の基準であるが、これらの主観的な判断を客観的な指標、特にテキスト・オーディオのアライメントや音楽のクオリティに翻訳することは困難であることが証明されている。
本研究では,12種類の最先端モデルを用いて6k曲を生成し,2.5k人の被験者と15k対の音声比較を行い,人間の嗜好と広く使用されているメトリクスの相関性を評価する。
我々の知る限りでは、この研究は人間の好みに基づいて現在最先端の音楽生成モデルとメトリクスをランク付けする最初のものである。
主観的メートル法評価の分野をさらに進めるために、生成した音楽のデータセットと人間の評価にオープンアクセスを提供する。
関連論文リスト
- Aligning Text-to-Music Evaluation with Human Preferences [63.08368388389259]
本稿では,TTM(生成音響テキスト・ツー・ミュージック)モデルの評価のための基準ベース分散指標の設計空間について検討する。
私たちは、合成データと人間の嗜好データの両方に標準のFAD設定が矛盾しているだけでなく、既存の指標のほとんどすべてがデシデラタを効果的に捉えていないことに気付きました。
我々は,自己教師型音声埋め込みモデルから表現に基づいて計算したMAUVE Audio Divergence(MAD)を提案する。
論文 参考訳(メタデータ) (2025-03-20T19:31:04Z) - Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound [46.7144966835279]
本稿では,人間の介入なしに審美を予測できる自動システムの必要性に対処する。
人間の聴取視点を4つの異なる軸に分解する新しいガイドラインを提案する。
我々は、音声品質のより微妙な評価を提供する、ノン参照、イテムごとの予測モデルを開発し、訓練する。
論文 参考訳(メタデータ) (2025-02-07T18:15:57Z) - MusicRL: Aligning Music Generation to Human Preferences [62.44903326718772]
MusicRLは人間のフィードバックによって微調整された最初の音楽生成システムである。
ユーザに対してMusicLMをデプロイし,30,000対の選好からなる実質的なデータセットを収集する。
人間のフィードバックを大規模に組み込んだ最初のテキスト-音楽モデルであるMusicRL-Uを訓練する。
論文 参考訳(メタデータ) (2024-02-06T18:36:52Z) - Investigating Personalization Methods in Text to Music Generation [21.71190700761388]
コンピュータビジョン領域の最近の進歩に触発されて、事前学習されたテキスト・オーディオ・ディフューザと2つの確立されたパーソナライズ手法の組み合わせを初めて検討した。
評価のために,プロンプトと音楽クリップを用いた新しいデータセットを構築した。
分析の結果、類似度指標はユーザの好みに応じており、現在のパーソナライズアプローチでは、メロディよりもリズム音楽の構成を学習しやすい傾向にあることがわかった。
論文 参考訳(メタデータ) (2023-09-20T08:36:34Z) - A Comprehensive Survey for Evaluation Methodologies of AI-Generated
Music [14.453416870193072]
本研究の目的は,AI生成音楽を評価するための主観的,客観的,複合的な方法論を包括的に評価することである。
究極的には、音楽評価分野における生成的AIの統合のための貴重な参考資料を提供する。
論文 参考訳(メタデータ) (2023-08-26T02:44:33Z) - Learning and Evaluating Human Preferences for Conversational Head
Generation [101.89332968344102]
そこで我々は,異なる次元の定量的評価に基づいて,人間の嗜好を適合させる学習ベース評価尺度であるPreference Score(PS)を提案する。
PSは人間のアノテーションを必要とせずに定量的評価を行うことができる。
論文 参考訳(メタデータ) (2023-07-20T07:04:16Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - An Order-Complexity Model for Aesthetic Quality Assessment of Symbolic
Homophony Music Scores [8.751312368054016]
AIが生み出す音楽の質は、人間の作曲家が生み出すものに比べれば比較的劣っている。
本稿では,ホモフォニー楽譜の美的品質評価のための客観的定量的評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T12:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。