Fugu-MT 論文翻訳(概要): Lyrics Matter: Exploiting the Power of Learnt Representations for Music Popularity Prediction

論文の概要: Lyrics Matter: Exploiting the Power of Learnt Representations for Music Popularity Prediction

arxiv url: http://arxiv.org/abs/2512.05508v1
Date: Fri, 05 Dec 2025 08:09:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-13 22:40:56.948854
Title: Lyrics Matter: Exploiting the Power of Learnt Representations for Music Popularity Prediction
Title（参考訳）: 歌詞:音楽人気予測のための学習表現の力を爆発させる
Authors: Yash Choudhary, Preeti Rao, Pushpak Bhattacharyya,
Abstract要約: この研究は、人気を予想する上での歌詞の役割を過小評価するものである。 LLMを用いて高次元のリリック埋め込みを抽出する自動パイプラインを提案する。これらの機能は、人気スコア予測のためにオーディオ、歌詞、ソーシャルメタデータを組み合わせたマルチモーダルアーキテクチャであるHitMusicLyricNetに統合されている。
参考スコア（独自算出の注目度）: 47.3124073459729
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Accurately predicting music popularity is a critical challenge in the music industry, offering benefits to artists, producers, and streaming platforms. Prior research has largely focused on audio features, social metadata, or model architectures. This work addresses the under-explored role of lyrics in predicting popularity. We present an automated pipeline that uses LLM to extract high-dimensional lyric embeddings, capturing semantic, syntactic, and sequential information. These features are integrated into HitMusicLyricNet, a multimodal architecture that combines audio, lyrics, and social metadata for popularity score prediction in the range 0-100. Our method outperforms existing baselines on the SpotGenTrack dataset, which contains over 100,000 tracks, achieving 9% and 20% improvements in MAE and MSE, respectively. Ablation confirms that gains arise from our LLM-driven lyrics feature pipeline (LyricsAENet), underscoring the value of dense lyric representations.
Abstract（参考訳）: 音楽の人気を正確に予測することは音楽業界にとって重要な課題であり、アーティスト、プロデューサー、ストリーミングプラットフォームに利益をもたらす。以前の研究では、主に音声機能、社会メタデータ、モデルアーキテクチャに焦点が当てられていた。この研究は、人気を予想する上での歌詞の役割を過小評価するものである。 LLMを用いて高次元のリリック埋め込みを抽出し、セマンティック、構文、シーケンシャルな情報をキャプチャする自動パイプラインを提案する。これらの機能はHitMusicLyricNetに統合される。HitMusicLyricNetは音声、歌詞、ソーシャルメタデータを組み合わせて0-100の範囲で人気スコアを予測するマルチモーダルアーキテクチャである。提案手法は,100,000以上のトラックを含むSpotGenTrackデータセットの既存のベースラインを上回り,MAEとMSEをそれぞれ9%,20%改善した。 Ablationは、LLM駆動の歌詞特徴パイプライン(LyricsAENet)から得られる利得を確認し、密度の高い歌詞表現の価値を裏付ける。

関連論文リスト

SongSage: A Large Musical Language Model with Lyric Generative Pre-training [69.52790104805794]
SongSageは、多種多様な歌詞中心のインテリジェンスを備えた大規模な音楽モデルである。 SongSageは歌詞中心の知識を強く理解し、ゼロショットプレイリストのレコメンデーションのためにユーザークエリを書き直し、歌詞を効果的に生成し、継続し、7つの追加機能で巧みに実行する。
論文参考訳（メタデータ） (2026-01-03T10:54:37Z)
Who Will Top the Charts? Multimodal Music Popularity Prediction via Adaptive Fusion of Modality Experts and Temporal Engagement Modeling [47.3124073459729]
GAMENetは、音楽人気予測のためのエンドツーエンドのマルチモーダルディープラーニングアーキテクチャである。適応的なゲーティング機構を通じて、オーディオ、歌詞、ソーシャルメタデータのモダリティ固有の専門家を統合する。直接マルチモーダル特徴結合よりもR2が12%改善されている。
論文参考訳（メタデータ） (2025-12-06T03:07:43Z)
Predicting Music Track Popularity by Convolutional Neural Networks on Spotify Features and Spectrogram of Audio Waveform [3.6458439734112695]
本研究では,音楽トラックの人気を予測するために,畳み込みニューラルネットワーク(CNN)とSpotifyデータ分析を用いた先駆的手法を提案する。このアプローチでは、オーディオ波形、メタデータ、ユーザエンゲージメントメトリクスのスペクトログラムに基づく音響特性など、Spotifyの幅広い機能を活用しています。様々なジャンルや人口動態を網羅した大規模なデータセットを用いて、我々のCNNベースのモデルは、楽曲の人気を予測できる印象的な効果を示した。
論文参考訳（メタデータ） (2025-05-12T07:03:17Z)
JamendoMaxCaps: A Large Scale Music-caption Dataset with Imputed Metadata [6.230204066837519]
JamendoMaxCapsは、Jamendoプラットフォームから362,000以上のフリーライセンスのインストゥルメンタルトラックを備えた、大規模なミュージックキャプションデータセットである。データセットには、最先端のキャプションモデルによって生成されたキャプションが含まれており、暗黙のメタデータで強化されている。
論文参考訳（メタデータ） (2025-02-11T11:12:19Z)
Synthetic Lyrics Detection Across Languages and Genres [4.987546582439803]
音楽コンテンツ、特に歌詞を生成する大きな言語モデル(LLM)が人気を集めている。これまで様々な領域におけるコンテンツ検出について研究されてきたが、音楽におけるテキストのモダリティ、歌詞に焦点を当てた研究は行われていない。我々は、複数の言語、音楽ジャンル、アーティストのリアルとシンセサイザーの多様なデータセットをキュレートした。既存の合成テキスト検出手法について,未探索のデータ型である歌詞に対して,徹底的に評価を行った。音楽と産業の制約に従えば、これらのアプローチが言語全体にわたってどのように一般化され、データの可用性に配慮し、多言語言語コンテンツを処理し、数ショット設定で新しいジャンルで演奏するかを検討する。
論文参考訳（メタデータ） (2024-06-21T15:19:21Z)
MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-06-07T06:38:59Z)
MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文参考訳（メタデータ） (2023-06-18T12:56:46Z)
An Analysis of Classification Approaches for Hit Song Prediction using Engineered Metadata Features with Lyrics and Audio Features [5.871032585001082]
本研究は,より代替的なメタデータを用いて,Billboard Hot 100曲のトップ10ヒット曲の予測結果を改善することを目的としている。 k-nearest、Naive Bayes、Random Forest、Logistic Regression、Multilayer Perceptronの5つの機械学習アプローチが適用される。その結果,Random Forest (RF) と Logistic Regression (LR) は,それぞれ89.1%,87.2%,0.91,0.93AUCを達成している。
論文参考訳（メタデータ） (2023-01-31T09:48:53Z)
Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文参考訳（メタデータ） (2020-10-28T02:35:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。