論文の概要: APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music
- arxiv url: http://arxiv.org/abs/2605.03395v1
- Date: Tue, 05 May 2026 06:11:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.794247
- Title: APEX: Large-scale Multi-task Aesthetic-Informed Popularity Prediction for AI-Generated Music
- Title(参考訳): APEX:AI生成音楽のための大規模マルチタスク美容インフォームド人気予測
- Authors: Jaavid Aktar Husain, Dorien Herremans,
- Abstract要約: AI生成音楽のための大規模マルチタスク学習フレームワークであるAPEXを提案する。
エンゲージメントベースの人気信号 - ストリームとスコア - を5つの知覚的美的品質次元とともに予測する。
SunoとUdioから211K曲(10K時間の音声)のトレーニングを受けた。
- 参考スコア(独自算出の注目度): 11.491774036026923
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Music popularity prediction has attracted growing research interest, with relevance to artists, platforms, and recommendation systems. However, the explosive rise of AI-generated music platforms has created an entirely new and largely unexplored landscape, where a surge of songs is produced and consumed daily without the traditional markers of artist reputation or label backing. Key, yet unexplored in this pursuit is aesthetic quality. We propose APEX, the first large-scale multi-task learning framework for AI-generated music, trained on over 211k songs (10k hours of audio) from Suno and Udio, that jointly predicts engagement-based popularity signals - streams and likes scores - alongside five perceptual aesthetic quality dimensions from frozen audio embeddings extracted from MERT, a self-supervised music understanding model. Aesthetic quality and popularity capture complementary aspects of music that together prove valuable: in an out-of-distribution evaluation on the Music Arena dataset, comprising pairwise human preference battles across eleven generative music systems unseen during training, including aesthetic features consistently improves preference prediction, demonstrating strong generalisation of the learned representations across generative architectures.
- Abstract(参考訳): 音楽の人気予測は、アーティスト、プラットフォーム、レコメンデーションシステムに関連して、研究の関心が高まりつつある。
しかし、AIが生成する音楽プラットフォームが爆発的に増加し、全く新しい、そしてほとんど探索されていない風景を生み出した。
この追求の鍵は、まだ解明されていないが、美的品質である。
我々は,AI生成音楽のための最初の大規模マルチタスク学習フレームワークであるAPEXを提案し,スノとウディオの211k曲(10k時間の音声)を学習し,音楽理解モデルMERTから抽出したフリーズオーディオ埋め込みから得られる5つの審美的品質次元とともに,エンゲージメントベースの人気信号(ストリームやスコアなど)を共同で予測する。
音楽アリーナ・データセットのアウト・オブ・ディストリビューション・アセスメントでは、トレーニング中に見つからない11の再生音楽システム間での人間の嗜好の戦いをペアワイズで構成し、美的特徴は常に嗜好の予測を改善し、生成的アーキテクチャ全体で学習された表現の強力な一般化を示す。
関連論文リスト
- MusicAIR: A Multimodal AI Music Generation Framework Powered by an Algorithm-Driven Core [0.0]
MusicAIRは、新しいアルゴリズム駆動のシンボリックミュージックコアをベースとした、革新的なAI音楽生成フレームワークである。
このフレームワークは歌詞のみから完全なメロディックスコアを生成する。
GenAIMは、歌詞・歌詞・テキスト・音楽生成・画像・音楽生成にMusicAIRを使用するウェブツールである。
論文 参考訳(メタデータ) (2025-11-21T15:43:27Z) - Music Flamingo: Scaling Music Understanding in Audio Language Models [98.94537017112704]
Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。
MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。
MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
論文 参考訳(メタデータ) (2025-11-13T13:21:09Z) - Predicting Music Track Popularity by Convolutional Neural Networks on Spotify Features and Spectrogram of Audio Waveform [3.6458439734112695]
本研究では,音楽トラックの人気を予測するために,畳み込みニューラルネットワーク(CNN)とSpotifyデータ分析を用いた先駆的手法を提案する。
このアプローチでは、オーディオ波形、メタデータ、ユーザエンゲージメントメトリクスのスペクトログラムに基づく音響特性など、Spotifyの幅広い機能を活用しています。
様々なジャンルや人口動態を網羅した大規模なデータセットを用いて、我々のCNNベースのモデルは、楽曲の人気を予測できる印象的な効果を示した。
論文 参考訳(メタデータ) (2025-05-12T07:03:17Z) - Detecting Musical Deepfakes [0.0]
本研究では,FakeMusicCapsデータセットを用いたAI生成楽曲の検出について検討した。
実世界の逆境条件をシミュレートするため, テンポストレッチとピッチシフトをデータセットに適用した。
メルスペクトログラムは、修正されたオーディオから生成され、その後、畳み込みニューラルネットワークのトレーニングと評価に使用された。
論文 参考訳(メタデータ) (2025-05-03T21:45:13Z) - Enhancing Sequential Music Recommendation with Personalized Popularity Awareness [56.972624411205224]
本稿では、パーソナライズされた人気情報をシーケンシャルなレコメンデーションに組み込む新しいアプローチを提案する。
実験結果から、パーソナライズされた最もポピュラーなレコメンデータは、既存の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-09-06T15:05:12Z) - An Order-Complexity Aesthetic Assessment Model for Aesthetic-aware Music
Recommendation [20.164044758068634]
主観評価は芸術作品を評価する上で もっとも効果的な方法です
人間が作った音楽と比較すると、AIが生成した音楽は機械的、単調に聞こえるし、美的魅力がない。
ビルホフの美的尺度を用いて、美的モデルを設計し、音楽の美的美しさを客観的に測定し、音楽の美的感覚に応じてレコメンデーションリストを作成する。
論文 参考訳(メタデータ) (2024-02-13T09:03:03Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - An Order-Complexity Model for Aesthetic Quality Assessment of Symbolic
Homophony Music Scores [8.751312368054016]
AIが生み出す音楽の質は、人間の作曲家が生み出すものに比べれば比較的劣っている。
本稿では,ホモフォニー楽譜の美的品質評価のための客観的定量的評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T12:30:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。