論文の概要: Music Flamingo: Scaling Music Understanding in Audio Language Models
- arxiv url: http://arxiv.org/abs/2511.10289v1
- Date: Fri, 14 Nov 2025 01:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.79909
- Title: Music Flamingo: Scaling Music Understanding in Audio Language Models
- Title(参考訳): Music Flamingo: オーディオ言語モデルにおける音楽理解のスケールアップ
- Authors: Sreyan Ghosh, Arushi Goel, Lasha Koroshinadze, Sang-gil Lee, Zhifeng Kong, Joao Felipe Santos, Ramani Duraiswami, Dinesh Manocha, Wei Ping, Mohammad Shoeybi, Bryan Catanzaro,
- Abstract要約: Music Flamingoは、基礎的なオーディオモデルにおける音楽理解を促進するために設計された、新しい大きなオーディオ言語モデルである。
MF-Skillsはマルチステージパイプラインを通じてラベル付けされたデータセットで、調和、構造、音色、歌詞、文化的な文脈をカバーする豊富なキャプションと質問応答ペアを生成する。
MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シンク・データセットで、続いてGRPOベースの強化学習とカスタム報酬を取り入れた。
- 参考スコア(独自算出の注目度): 98.94537017112704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Music Flamingo, a novel large audio-language model designed to advance music (including song) understanding in foundational audio models. While audio-language research has progressed rapidly, music remains challenging due to its dynamic, layered, and information-dense nature. Progress has been further limited by the difficulty of scaling open audio understanding models, primarily because of the scarcity of high-quality music data and annotations. As a result, prior models are restricted to producing short, high-level captions, answering only surface-level questions, and showing limited generalization across diverse musical cultures. To address these challenges, we curate MF-Skills, a large-scale dataset labeled through a multi-stage pipeline that yields rich captions and question-answer pairs covering harmony, structure, timbre, lyrics, and cultural context. We fine-tune an enhanced Audio Flamingo 3 backbone on MF-Skills and further strengthen multiple skills relevant to music understanding. To improve the model's reasoning abilities, we introduce a post-training recipe: we first cold-start with MF-Think, a novel chain-of-thought dataset grounded in music theory, followed by GRPO-based reinforcement learning with custom rewards. Music Flamingo achieves state-of-the-art results across 10+ benchmarks for music understanding and reasoning, establishing itself as a generalist and musically intelligent audio-language model. Beyond strong empirical results, Music Flamingo sets a new standard for advanced music understanding by demonstrating how models can move from surface-level recognition toward layered, human-like perception of songs. We believe this work provides both a benchmark and a foundation for the community to build the next generation of models that engage with music as meaningfully as humans do.
- Abstract(参考訳): 基礎的な音響モデルにおける音楽(歌を含む)の理解を促進するために設計された,新しい大規模音声言語モデルであるMusic Flamingoを紹介する。
音声言語の研究は急速に進んでいるが、音楽は動的で層状で情報に富む性質のため、依然として困難である。
オープンオーディオ理解モデルのスケーリングが困難であることや、高品質の音楽データやアノテーションの不足などにより、進歩はさらに制限されている。
結果として、先行モデルは短い高レベルのキャプションを生成し、表面レベルの質問にのみ答え、様々な音楽文化にまたがる限定的な一般化を示すことに制限される。
これらの課題に対処するため、マルチステージパイプラインを通じてラベル付けされた大規模データセットであるMF-Skillsをキュレートし、調和、構造、音色、歌詞、文化的な文脈をカバーした豊富なキャプションと質問応答ペアを生成する。
MFスキルの強化されたAudio Flamingo 3バックボーンを微調整し、音楽理解に関連する複数のスキルを強化する。
MF-Thinkは音楽理論に基づく新しいチェーン・オブ・シント・データセットであり、GRPOをベースとした強化学習とカスタム報酬を用いて学習する。
Music Flamingoは、音楽理解と推論のための10以上のベンチマークで最先端の結果を達成し、汎用的で音楽的にインテリジェントなオーディオ言語モデルとして確立した。
Music Flamingoは、強力な経験的な結果の他に、高度な音楽理解のための新しい標準を設定し、モデルが表面レベルの認識から、階層化された人間的な歌の知覚へとどのように移行できるかを示す。
この研究は、コミュニティが人間と同じように有意義な音楽を扱う次世代のモデルを構築するためのベンチマークと基盤を提供すると信じています。
関連論文リスト
- Advancing the Foundation Model for Music Understanding [9.210248657997687]
総合音楽理解のための基礎モデル MuFun を導入する。
我々のモデルは、楽器と歌詞のコンテンツを共同で処理する新しいアーキテクチャを特徴としている。
また,MuCUEと呼ばれる多面的音楽理解のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-08-02T03:33:47Z) - From Generality to Mastery: Composer-Style Symbolic Music Generation via Large-Scale Pre-training [4.7205815347741185]
広義のコーパスから学んだ一般的な音楽知識が、特定の作曲家スタイルの熟達度をいかに高めるかを検討する。
まず、ポップ、フォーク、クラシック音楽の大規模なコーパス上で、REMIベースの音楽生成モデルを事前訓練する。
そして、Bach、Mozart、Beethoven、Chopinの4人の著名な作曲家による、人間によって検証された小さなデータセットに、それを微調整します。
論文 参考訳(メタデータ) (2025-06-20T22:20:59Z) - Foundation Models for Music: A Survey [77.77088584651268]
ファンデーションモデル(FM)は音楽を含む様々な分野に大きな影響を与えている。
本総説では,音楽の事前学習モデルと基礎モデルについて概観する。
論文 参考訳(メタデータ) (2024-08-26T15:13:14Z) - MusicRL: Aligning Music Generation to Human Preferences [62.44903326718772]
MusicRLは人間のフィードバックによって微調整された最初の音楽生成システムである。
ユーザに対してMusicLMをデプロイし,30,000対の選好からなる実質的なデータセットを収集する。
人間のフィードバックを大規模に組み込んだ最初のテキスト-音楽モデルであるMusicRL-Uを訓練する。
論文 参考訳(メタデータ) (2024-02-06T18:36:52Z) - LLark: A Multimodal Instruction-Following Language Model for Music [7.7033394687966865]
音楽にはユニークで複雑な構造があり、専門家と既存のAIシステムの両方が理解することが難しい。
音韻理解のための命令調整型マルチモーダルモデルであるLLarkを提案する。
論文 参考訳(メタデータ) (2023-10-11T03:12:47Z) - MusiLingo: Bridging Music and Text with Pre-trained Language Models for Music Captioning and Query Response [42.73982391253872]
MusiLingoは音楽キャプション生成と音楽関連クエリ応答のための新しいシステムである。
広範囲な音楽キャプションデータセットでトレーニングし、インストラクショナルデータで微調整する。
音楽キャプションの生成と音楽関連Q&Aペアの構成において,その競争性能を実証した。
論文 参考訳(メタデータ) (2023-09-15T19:31:40Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。