Fugu-MT 論文翻訳(概要): CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

論文の概要: CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

arxiv url: http://arxiv.org/abs/2603.00610v2
Date: Wed, 04 Mar 2026 18:26:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 14:47:28.776823
Title: CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction
Title（参考訳）: CMI-RewardBench:構成的マルチモーダル命令による音楽リワードモデルの評価
Authors: Yinghao Ma, Haiwen Xia, Hewei Gao, Weixiong Chen, Yuxin Ye, Yuchen Yang, Sungkyun Chang, Mingshuo Ding, Yizhi Li, Ruibin Yuan, Simon Dixon, Emmanouil Benetos,
Abstract要約: コンポジション・マルチモーダル・インストラクション(CMI)に基づく音楽報酬モデリングのための総合的なエコシステムを構築した。まず,110kの擬似ラベル付きサンプルからなる大規模選好データセットであるCMI-Pref-Pseudoと,きめ細かなアライメント作業に適した高品質な人間アノテーション付きコーパスであるCMI-Prefを紹介する。 CMI-RewardBenchは,音楽性,テキスト・音楽的アライメント,コンストラクショナル・インストラクション・アライメントといった多種多様なサンプルの楽曲報酬モデルを評価する統一ベンチマークである。
参考スコア（独自算出の注目度）: 28.66731946887381
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While music generation models have evolved to handle complex multimodal inputs mixing text, lyrics, and reference audio, evaluation mechanisms have lagged behind. In this paper, we bridge this critical gap by establishing a comprehensive ecosystem for music reward modeling under Compositional Multimodal Instruction (CMI), where the generated music may be conditioned on text descriptions, lyrics, and audio prompts. We first introduce CMI-Pref-Pseudo, a large-scale preference dataset comprising 110k pseudo-labeled samples, and CMI-Pref, a high-quality, human-annotated corpus tailored for fine-grained alignment tasks. To unify the evaluation landscape, we propose CMI-RewardBench, a unified benchmark that evaluates music reward models on heterogeneous samples across musicality, text-music alignment, and compositional instruction alignment. Leveraging these resources, we develop CMI reward models (CMI-RMs), a parameter-efficient reward model family capable of processing heterogeneous inputs. We evaluate their correlation with human judgments scores on musicality and alignment on CMI-Pref along with previous datasets. Further experiments demonstrate that CMI-RM not only correlates strongly with human judgments, but also enables effective inference-time scaling via top-k filtering. The necessary training data, benchmarks, and reward models are publicly available.
Abstract（参考訳）: 音楽生成モデルは、テキスト、歌詞、参照音声を混合する複雑なマルチモーダル入力を扱うように進化してきたが、評価メカニズムは遅れている。本稿では,合成マルチモーダルインストラクション(CMI)に基づく楽曲報酬モデリングのための総合的なエコシステムを確立することで,この重要なギャップを埋める。まず、110kの擬似ラベル付きサンプルからなる大規模嗜好データセットCMI-Pref-Pseudoと、きめ細かなアライメント作業に適した高品質な人間注釈付きコーパスCMI-Prefを紹介する。 CMI-RewardBenchは,音楽性,テキスト・音楽的アライメント,コンストラクショナル・インストラクション・アライメントといった多種多様なサンプルの楽曲報酬モデルを評価する統一ベンチマークである。これらの資源を活用することで、不均一な入力を処理できるパラメータ効率の高い報酬モデルファミリーであるCMI報酬モデル(CMI-RMs)を開発する。我々は,CMI-Prefの楽曲性およびアライメントに関する人間の判断スコアと過去のデータセットとの相関性を評価する。さらなる実験では、CMI-RMは人間の判断と強く相関するだけでなく、トップkフィルタリングによる効果的な推論時間スケーリングを可能にしている。必要なトレーニングデータ、ベンチマーク、報酬モデルが公開されている。

関連論文リスト

Linear Complexity Self-Supervised Learning for Music Understanding with Random Quantizer [0.0]
本稿では,音楽情報検索(MIR)タスクに適用した場合のファンデーションのモデルサイズ削減に焦点をあてる。本研究は,まず音声認識に応用したSessionMixingと,ランダムな量子化プロセスを組み合わせたブランチフォーマーアーキテクチャを組み合わせたものである。我々のアーキテクチャは,他の最先端モデルと比較して,競争性能が向上することを示す。
論文参考訳（メタデータ） (2026-01-14T16:23:31Z)
SoliReward: Mitigating Susceptibility to Reward Hacking and Annotation Noise in Video Generation Reward Models [53.19726629537694]
ビデオ生成モデルと人間の好みのトレーニング後のアライメントは、重要な目標である。現在のデータ収集パラダイムは、プロンプト内のペアワイズアノテーションに依存しており、ノイズのラベル付けに悩まされている。ビデオRMトレーニングのための体系的フレームワークであるSoliRewardを提案する。
論文参考訳（メタデータ） (2025-12-17T14:28:23Z)
Advancing the Foundation Model for Music Understanding [9.210248657997687]
総合音楽理解のための基礎モデル MuFun を導入する。我々のモデルは、楽器と歌詞のコンテンツを共同で処理する新しいアーキテクチャを特徴としている。また,MuCUEと呼ばれる多面的音楽理解のための新しいベンチマークを提案する。
論文参考訳（メタデータ） (2025-08-02T03:33:47Z)
CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following [12.638115555721257]
CMI-Benchは、様々な音楽情報検索(MIR)タスクにおいて、オーディオテキストLLMを評価するために設計された総合的な音楽指示に従うベンチマークである。以前のベンチマークとは異なり、CMI-Benchは従来の最先端のMIRモデルと一致する標準化された評価基準を採用している。 LTU,Qwen-audio,SALMONN,MusiLingoなど,オープンソースの音声テキストLLMをサポートする評価ツールキットを提供する。
論文参考訳（メタデータ） (2025-06-14T00:18:44Z)
Aligning Text-to-Music Evaluation with Human Preferences [63.08368388389259]
本稿では,TTM(生成音響テキスト・ツー・ミュージック)モデルの評価のための基準ベース分散指標の設計空間について検討する。私たちは、合成データと人間の嗜好データの両方に標準のFAD設定が矛盾しているだけでなく、既存の指標のほとんどすべてがデシデラタを効果的に捉えていないことに気付きました。我々は,自己教師型音声埋め込みモデルから表現に基づいて計算したMAUVE Audio Divergence(MAD)を提案する。
論文参考訳（メタデータ） (2025-03-20T19:31:04Z)
Composed Multi-modal Retrieval: A Survey of Approaches and Applications [81.54640206021757]
複合マルチモーダル検索(CMR)は次世代技術として誕生する。 CMRは、参照視覚入力とテキスト修正を統合することで、画像やビデオをクエリすることを可能にする。本稿では,CMRの基礎的課題,技術的進歩,応用について概説する。
論文参考訳（メタデータ） (2025-03-03T09:18:43Z)
Machine Learning Framework for Audio-Based Content Evaluation using MFCC, Chroma, Spectral Contrast, and Temporal Feature Engineering [0.0]
そこで本研究では,YouTube上の音楽カバーの音声サンプルと,オリジナル曲の音声とユーザコメントからの感情スコアを含むデータセットを構築した。我々のアプローチは、広範囲な事前処理、音声信号を30秒のウィンドウに分割し、高次元の特徴表現を抽出することである。回帰モデルを用いて感情スコアを0-100スケールで予測し,それぞれ3.420,5.482,2.783,4.212の根平均二乗誤差(RMSE)値を達成する。
論文参考訳（メタデータ） (2024-10-31T20:26:26Z)
Stem-JEPA: A Joint-Embedding Predictive Architecture for Musical Stem Compatibility Estimation [3.8570045844185237]
マルチトラックデータセットでトレーニングした新しいJEPA(Joint-Embedding Predictive Architecture)であるStem-JEPAを紹介する。本モデルでは, エンコーダと予測器の2つのネットワークから構成される。 MUSDB18データセットの検索タスクにおいて、本モデルの性能を評価し、ミキシングから欠落した茎を見つける能力を検証した。
論文参考訳（メタデータ） (2024-08-05T14:34:40Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文参考訳（メタデータ） (2023-04-04T17:54:32Z)
Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文参考訳（メタデータ） (2020-08-01T07:46:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。