論文の概要: Rethinking Music Captioning with Music Metadata LLMs
- arxiv url: http://arxiv.org/abs/2602.03023v1
- Date: Tue, 03 Feb 2026 02:42:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.201181
- Title: Rethinking Music Captioning with Music Metadata LLMs
- Title(参考訳): 音楽メタデータLLMによる音楽キャプション再考
- Authors: Irmak Bukey, Zhepei Wang, Chris Donahue, Nicholas J. Bryan,
- Abstract要約: 大きな言語モデル(LLM)を使用してメタデータからキャプションを合成し、キャプションモデルのためのトレーニングデータを生成することが一般的である。
より直接的なアプローチとしてメタデータベースのキャプションを提案する。
音声から詳細な音楽メタデータを推測し,それを表現的キャプションに変換するメタデータ予測モデルを訓練する。
- 参考スコア(独自算出の注目度): 12.948464939272226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music captioning, or the task of generating a natural language description of music, is useful for both music understanding and controllable music generation. Training captioning models, however, typically requires high-quality music caption data which is scarce compared to metadata (e.g., genre, mood, etc.). As a result, it is common to use large language models (LLMs) to synthesize captions from metadata to generate training data for captioning models, though this process imposes a fixed stylization and entangles factual information with natural language style. As a more direct approach, we propose metadata-based captioning. We train a metadata prediction model to infer detailed music metadata from audio and then convert it into expressive captions via pre-trained LLMs at inference time. Compared to a strong end-to-end baseline trained on LLM-generated captions derived from metadata, our method: (1) achieves comparable performance in less training time over end-to-end captioners, (2) offers flexibility to easily change stylization post-training, enabling output captions to be tailored to specific stylistic and quality requirements, and (3) can be prompted with audio and partial metadata to enable powerful metadata imputation or in-filling--a common task for organizing music data.
- Abstract(参考訳): 音楽キャプション、すなわち、音楽の自然言語記述を生成するタスクは、音楽理解と制御可能な音楽生成の両方に有用である。
しかし、トレーニングキャプションモデルは通常、メタデータ(例えば、ジャンル、気分など)と比較して少ない高品質の音楽キャプションデータを必要とする。
その結果、メタデータからキャプションを合成し、キャプションモデルのためのトレーニングデータを生成するために、大きな言語モデル(LLM)を用いるのが一般的である。
より直接的なアプローチとしてメタデータベースのキャプションを提案する。
メタデータ予測モデルを用いて、音声から詳細な音楽メタデータを推測し、予測時に事前学習されたLLMを通して表現的なキャプションに変換する。
メタデータからLLM生成したキャプションをトレーニングした強力なエンドツーエンドベースラインと比較して,(1)エンド・ツー・エンドのキャプションよりも少ないトレーニング時間で同等のパフォーマンスを実現し,(2)スタイリゼーション後トレーニングを簡単に変更できる柔軟性を提供し,出力キャプションを特定のスタイリスティックな要求や品質要件に合わせて調整可能とし,(3)音声や部分的なメタデータを駆使して,強力なメタデータ計算やインフィル機能を実現する。
関連論文リスト
- SonicVerse: Multi-Task Learning for Music Feature-Informed Captioning [6.806050368211496]
本稿では,マルチタスク音楽キャプションモデルであるSonicVerseについて紹介する。
音楽の特徴を同時に検出しながら、音声入力を言語トークンに変換するプロジェクションベースのアーキテクチャである。
論文 参考訳(メタデータ) (2025-06-18T05:51:36Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Classifier-Guided Captioning Across Modalities [69.75111271002137]
本稿では,音声キャプションにおける可聴性の獲得など,代替設定のセマンティクスにキャプションネットワークを適用する手法を提案する。
本フレームワークは, (i) 言語モデル(LM)を組み込んだ冷凍キャプションシステムと, (ii) キャプションシステムを案内するテキスト分類器の2つの主要コンポーネントから構成される。
特に、既存のゼロショット音声キャプションシステムと組み合わせることで、その品質を改善し、ゼロショット音声キャプションにおける最先端の性能を設定する。
論文 参考訳(メタデータ) (2025-01-03T18:09:26Z) - AudioSetMix: Enhancing Audio-Language Datasets with LLM-Assisted Augmentations [1.2101820447447276]
近年,音声言語領域におけるマルチモーダル学習は大きな進歩を遂げている。
しかし、音声学習は、画像言語タスクと比較して、限られたデータや低品質のデータによって困難に直面している。
本手法は,音声クリップを自然言語ラベルと対応する音声信号処理操作で拡張することにより,音声キャプチャペアを体系的に生成する。
このスケーラブルな方法は、テキストおよびオーディオ関連モデルの高品質なトレーニングデータセットであるAudioSetMixを生成する。
論文 参考訳(メタデータ) (2024-05-17T21:08:58Z) - Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - HowToCaption: Prompting LLMs to Transform Video Annotations at Scale [72.69268311756082]
本稿では,大言語モデル(LLM)の能力を活用して,大規模ビデオに対応する高品質な映像記述を実現することを提案する。
本稿では,より長い字幕テキストを考慮に入れたプロンプト手法を提案する。
我々は、HowTo100Mデータセットの字幕にメソッドを適用し、新しい大規模データセット、HowToCaptionを作成します。
論文 参考訳(メタデータ) (2023-10-07T19:32:55Z) - MusCaps: Generating Captions for Music Audio [14.335950077921435]
時間的注目のエンコーダデコーダで構成された最初の音楽オーディオキャプションモデルであるMusCapsを紹介します。
本手法は畳み込み型ニューラルネットワークアーキテクチャと繰り返し型ニューラルネットワークアーキテクチャを組み合わせて,音声テキスト入力を共同処理する。
我々のモデルは、分類に基づく音楽記述から脱却し、聴覚と言語の両方の理解を必要とするタスクを組み合わせている。
論文 参考訳(メタデータ) (2021-04-24T16:34:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。