論文の概要: Who Will Top the Charts? Multimodal Music Popularity Prediction via Adaptive Fusion of Modality Experts and Temporal Engagement Modeling
- arxiv url: http://arxiv.org/abs/2512.06259v1
- Date: Sat, 06 Dec 2025 03:07:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.27116
- Title: Who Will Top the Charts? Multimodal Music Popularity Prediction via Adaptive Fusion of Modality Experts and Temporal Engagement Modeling
- Title(参考訳): チャートで誰がトップになるのか? モダリティエキスパートの適応的融合とテンポラルエンゲージメントモデリングによるマルチモーダル音楽人気予測
- Authors: Yash Choudhary, Preeti Rao, Pushpak Bhattacharyya,
- Abstract要約: GAMENetは、音楽人気予測のためのエンドツーエンドのマルチモーダルディープラーニングアーキテクチャである。
適応的なゲーティング機構を通じて、オーディオ、歌詞、ソーシャルメタデータのモダリティ固有の専門家を統合する。
直接マルチモーダル特徴結合よりもR2が12%改善されている。
- 参考スコア(独自算出の注目度): 47.3124073459729
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Predicting a song's commercial success prior to its release remains an open and critical research challenge for the music industry. Early prediction of music popularity informs strategic decisions, creative planning, and marketing. Existing methods suffer from four limitations:(i) temporal dynamics in audio and lyrics are averaged away; (ii) lyrics are represented as a bag of words, disregarding compositional structure and affective semantics; (iii) artist- and song-level historical performance is ignored; and (iv) multimodal fusion approaches rely on simple feature concatenation, resulting in poorly aligned shared representations. To address these limitations, we introduce GAMENet, an end-to-end multimodal deep learning architecture for music popularity prediction. GAMENet integrates modality-specific experts for audio, lyrics, and social metadata through an adaptive gating mechanism. We use audio features from Music4AllOnion processed via OnionEnsembleAENet, a network of autoencoders designed for robust feature extraction; lyric embeddings derived through a large language model pipeline; and newly introduced Career Trajectory Dynamics (CTD) features that capture multi-year artist career momentum and song-level trajectory statistics. Using the Music4All dataset (113k tracks), previously explored in MIR tasks but not popularity prediction, GAMENet achieves a 12% improvement in R^2 over direct multimodal feature concatenation. Spotify audio descriptors alone yield an R^2 of 0.13. Integrating aggregate CTD features increases this to 0.69, with an additional 7% gain from temporal CTD features. We further validate robustness using the SpotGenTrack Popularity Dataset (100k tracks), achieving a 16% improvement over the previous baseline. Extensive ablations confirm the model's effectiveness and the distinct contribution of each modality.
- Abstract(参考訳): リリース前に曲の商業的成功を予測することは、音楽産業にとってオープンで重要な研究課題である。
音楽の人気の早期予測は、戦略的決定、創造的計画、マーケティングに影響を及ぼす。
既存の方法には4つの制限がある。
(i)音声と歌詞の時間的ダイナミクスを平均化すること。
(二)歌詞は、構成構造及び情緒的意味論を無視して、言葉の袋として表現される。
(三)アーティスト、歌曲レベルの歴史的上演は無視され、
(4)マルチモーダル融合アプローチは単純な特徴連結に依存し、整合性に乏しい共有表現をもたらす。
これらの制約に対処するため,音楽人気予測のためのエンドツーエンドのマルチモーダルディープラーニングアーキテクチャであるGAMENetを導入する。
GAMENetは、アダプティブゲーティング機構を通じて、オーディオ、歌詞、社会メタデータのモダリティ固有の専門家を統合する。
我々は、ロバストな特徴抽出のために設計されたオートエンコーダのネットワークであるOnionEnsembleAENetで処理されたMusic4AllOnionのオーディオ機能、大規模な言語モデルパイプラインから派生した歌詞埋め込み、そして、複数年にわたるアーティストのキャリアの勢いと歌レベルの軌道統計を捉えた、新たに導入されたCareer Trajectory Dynamics (CTD)機能を使用する。
Music4Allデータセット(113kトラック)は、以前MIRタスクで探索されたが、人気予測には至らなかったが、GAMENetは直接マルチモーダル機能結合よりもR^2が12%改善されている。
SpotifyのオーディオディスクリプタだけでR^2は0.13である。
集約CTD機能の統合は、これを0.69に増加し、時間的CTD機能から7%の増量がある。
SpotGenTrack Popularity Dataset(100kトラック)を使用して、ロバスト性をさらに検証し、以前のベースラインよりも16%改善した。
広範囲にわたる改善により、モデルの有効性と各モダリティの明確な寄与が確認された。
関連論文リスト
- Predicting Music Track Popularity by Convolutional Neural Networks on Spotify Features and Spectrogram of Audio Waveform [3.6458439734112695]
本研究では,音楽トラックの人気を予測するために,畳み込みニューラルネットワーク(CNN)とSpotifyデータ分析を用いた先駆的手法を提案する。
このアプローチでは、オーディオ波形、メタデータ、ユーザエンゲージメントメトリクスのスペクトログラムに基づく音響特性など、Spotifyの幅広い機能を活用しています。
様々なジャンルや人口動態を網羅した大規模なデータセットを用いて、我々のCNNベースのモデルは、楽曲の人気を予測できる印象的な効果を示した。
論文 参考訳(メタデータ) (2025-05-12T07:03:17Z) - JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation [18.979064278674276]
JEN-1 Composerは、マルチトラック音楽上での限界分布、条件分布、共同分布を効率的にモデル化するように設計されている。
本研究では、段階的なカリキュラム学習戦略を導入し、段階的に訓練作業の難しさを増大させる。
提案手法は,制御可能かつ高忠実なマルチトラック音楽合成における最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-29T22:51:49Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - An Analysis of Classification Approaches for Hit Song Prediction using
Engineered Metadata Features with Lyrics and Audio Features [5.871032585001082]
本研究は,より代替的なメタデータを用いて,Billboard Hot 100曲のトップ10ヒット曲の予測結果を改善することを目的としている。
k-nearest、Naive Bayes、Random Forest、Logistic Regression、Multilayer Perceptronの5つの機械学習アプローチが適用される。
その結果,Random Forest (RF) と Logistic Regression (LR) は,それぞれ89.1%,87.2%,0.91,0.93AUCを達成している。
論文 参考訳(メタデータ) (2023-01-31T09:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。