論文の概要: SongSage: A Large Musical Language Model with Lyric Generative Pre-training
- arxiv url: http://arxiv.org/abs/2601.01153v1
- Date: Sat, 03 Jan 2026 10:54:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.055568
- Title: SongSage: A Large Musical Language Model with Lyric Generative Pre-training
- Title(参考訳): SongSage: 歌詞生成事前学習を備えた大規模音楽言語モデル
- Authors: Jiani Guo, Jiajia Li, Jie Wu, Zuchao Li, Yujiu Yang, Ping Wang,
- Abstract要約: SongSageは、多種多様な歌詞中心のインテリジェンスを備えた大規模な音楽モデルである。
SongSageは歌詞中心の知識を強く理解し、ゼロショットプレイリストのレコメンデーションのためにユーザークエリを書き直し、歌詞を効果的に生成し、継続し、7つの追加機能で巧みに実行する。
- 参考スコア(独自算出の注目度): 69.52790104805794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have achieved significant success in various domains, yet their understanding of lyric-centric knowledge has not been fully explored. In this work, we first introduce PlaylistSense, a dataset to evaluate the playlist understanding capability of language models. PlaylistSense encompasses ten types of user queries derived from common real-world perspectives, challenging LLMs to accurately grasp playlist features and address diverse user intents. Comprehensive evaluations indicate that current general-purpose LLMs still have potential for improvement in playlist understanding. Inspired by this, we introduce SongSage, a large musical language model equipped with diverse lyric-centric intelligence through lyric generative pretraining. SongSage undergoes continual pretraining on LyricBank, a carefully curated corpus of 5.48 billion tokens focused on lyrical content, followed by fine-tuning with LyricBank-SFT, a meticulously crafted instruction set comprising 775k samples across nine core lyric-centric tasks. Experimental results demonstrate that SongSage exhibits a strong understanding of lyric-centric knowledge, excels in rewriting user queries for zero-shot playlist recommendations, generates and continues lyrics effectively, and performs proficiently across seven additional capabilities. Beyond its lyric-centric expertise, SongSage also retains general knowledge comprehension and achieves a competitive MMLU score. We will keep the datasets inaccessible due to copyright restrictions and release the SongSage and training script to ensure reproducibility and support music AI research and applications, the datasets release plan details are provided in the appendix.
- Abstract(参考訳): 大規模言語モデルは様々な領域で大きな成功を収めてきたが、歌詞中心の知識に対する理解は十分に研究されていない。
本研究ではまず,言語モデルのプレイリスト理解能力を評価するデータセットであるPlaylistSenseを紹介する。
PlaylistSenseは、一般的な現実世界の視点から派生した10種類のユーザクエリを含み、LLMに対してプレイリストの特徴を正確に把握し、多様なユーザ意図に対処するように挑戦する。
総合的な評価は、現在の汎用LLMは、プレイリスト理解の改善の可能性を秘めていることを示している。
このことから着想を得たSongSageは,多種多様な歌詞中心のインテリジェンスを備えた大規模音楽モデルである。
SongSageは、リリックコンテンツに焦点を当てた548億のトークンを慎重にキュレートした企業であるLyricBankで継続事前トレーニングを行い、その後LyricBank-SFTで微調整を行った。
実験結果から,SongSageは歌詞中心の知識を強く理解し,ゼロショットプレイリストレコメンデーションのためのユーザクエリの書き直しに優れ,歌詞を効果的に生成・継続し,さらに7つの追加機能に対して熟達的に実行していることがわかった。
歌詞中心の専門知識以外にも、SongSageは一般的な知識の理解を維持し、競争力のあるMMLUスコアを達成している。
著作権の制限によりデータセットはアクセスできなくなり、再現性を確保し、音楽AIの研究とアプリケーションをサポートするためにSongSageとトレーニングスクリプトをリリースします。
関連論文リスト
- Lyrics Matter: Exploiting the Power of Learnt Representations for Music Popularity Prediction [47.3124073459729]
この研究は、人気を予想する上での歌詞の役割を過小評価するものである。
LLMを用いて高次元のリリック埋め込みを抽出する自動パイプラインを提案する。
これらの機能は、人気スコア予測のためにオーディオ、歌詞、ソーシャルメタデータを組み合わせたマルチモーダルアーキテクチャであるHitMusicLyricNetに統合されている。
論文 参考訳(メタデータ) (2025-12-05T08:09:26Z) - Towards Estimating Personal Values in Song Lyrics [5.170818712089796]
西洋諸国で広く消費されている音楽は、歌詞が含まれており、アメリカのサンプルでは、彼らの楽曲ライブラリのほとんどすべてが歌詞を含んでいると報告している。
本稿では,社会科学理論に導かれたパースペクティビズム的アプローチを用いて,アノテーションの収集,品質評価,集約を行う。
次に、評価値辞書を用いて、事前学習した文/単語の埋め込みモデルに基づく評価値と比較する。
論文 参考訳(メタデータ) (2024-08-22T19:22:55Z) - Synthetic Lyrics Detection Across Languages and Genres [4.987546582439803]
音楽コンテンツ、特に歌詞を生成する大きな言語モデル(LLM)が人気を集めている。
これまで様々な領域におけるコンテンツ検出について研究されてきたが、音楽におけるテキストのモダリティ、歌詞に焦点を当てた研究は行われていない。
我々は、複数の言語、音楽ジャンル、アーティストのリアルとシンセサイザーの多様なデータセットをキュレートした。
既存の合成テキスト検出手法について,未探索のデータ型である歌詞に対して,徹底的に評価を行った。
音楽と産業の制約に従えば、これらのアプローチが言語全体にわたってどのように一般化され、データの可用性に配慮し、多言語言語コンテンツを処理し、数ショット設定で新しいジャンルで演奏するかを検討する。
論文 参考訳(メタデータ) (2024-06-21T15:19:21Z) - SongComposer: A Large Language Model for Lyric and Melody Generation in Song Composition [82.38021790213752]
SongComposerは、音楽専門の大規模言語モデル(LLM)である。
3つの重要なイノベーションを活用することで、メロディーをLLMに同時に構成する能力を統合する。
歌詞からメロディへの生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成といったタスクにおいて、高度なLLMよりも優れています。
SongComposeは大規模なトレーニング用データセットで、中国語と英語の歌詞とメロディのペアを含む。
論文 参考訳(メタデータ) (2024-02-27T16:15:28Z) - LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT [48.28624219567131]
リリックウィズ(LyricWhiz)は、頑健で、多言語で、ゼロショットの自動歌詞書き起こし方式である。
我々は、弱教師付き頑健な音声認識モデルであるWhisperと、今日の最もパフォーマンスの高いチャットベースの大規模言語モデルであるGPT-4を使用している。
実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低下させることがわかった。
論文 参考訳(メタデータ) (2023-06-29T17:01:51Z) - Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。
我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。
我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文 参考訳(メタデータ) (2023-05-30T17:20:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。