論文の概要: SonicVerse: Multi-Task Learning for Music Feature-Informed Captioning
- arxiv url: http://arxiv.org/abs/2506.15154v1
- Date: Wed, 18 Jun 2025 05:51:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.553994
- Title: SonicVerse: Multi-Task Learning for Music Feature-Informed Captioning
- Title(参考訳): SonicVerse:音楽機能インフォームドキャプションのためのマルチタスク学習
- Authors: Anuradha Chopra, Abhinaba Roy, Dorien Herremans,
- Abstract要約: 本稿では,マルチタスク音楽キャプションモデルであるSonicVerseについて紹介する。
音楽の特徴を同時に検出しながら、音声入力を言語トークンに変換するプロジェクションベースのアーキテクチャである。
- 参考スコア(独自算出の注目度): 6.806050368211496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Detailed captions that accurately reflect the characteristics of a music piece can enrich music databases and drive forward research in music AI. This paper introduces a multi-task music captioning model, SonicVerse, that integrates caption generation with auxiliary music feature detection tasks such as key detection, vocals detection, and more, so as to directly capture both low-level acoustic details as well as high-level musical attributes. The key contribution is a projection-based architecture that transforms audio input into language tokens, while simultaneously detecting music features through dedicated auxiliary heads. The outputs of these heads are also projected into language tokens, to enhance the captioning input. This framework not only produces rich, descriptive captions for short music fragments but also directly enables the generation of detailed time-informed descriptions for longer music pieces, by chaining the outputs using a large-language model. To train the model, we extended the MusicBench dataset by annotating it with music features using MIRFLEX, a modular music feature extractor, resulting in paired audio, captions and music feature data. Experimental results show that incorporating features in this way improves the quality and detail of the generated captions.
- Abstract(参考訳): 楽曲の特徴を正確に反映した詳細なキャプションは、音楽データベースを充実させ、音楽AIの研究を進めることができる。
本稿では,マルチタスク音楽キャプションモデルであるSonicVerseを紹介し,キー検出,ボーカル検出などの補助的音楽特徴検出タスクとキャプション生成を統合し,低レベル音響情報と高レベル音楽属性を直接キャプチャする。
重要な貢献は、プロジェクションベースのアーキテクチャで、オーディオ入力を言語トークンに変換しながら、専用の補助ヘッドを通じて音楽の特徴を同時に検出する。
これらのヘッドの出力も言語トークンに投影され、キャプション入力が強化される。
このフレームワークは、短い楽曲の断片のためのリッチで記述的なキャプションを生成するだけでなく、より大きな言語モデルを用いて出力をチェーンすることで、より長い曲のための詳細なタイムインフォームド記述を直接生成することを可能にする。
モデルをトレーニングするために,モジュール式音楽特徴抽出器MIRFLEXを用いて音楽特徴に注釈を付け,ペア音声,キャプション,音楽特徴データを生成することで,MusicBenchデータセットを拡張した。
実験結果から,このような特徴を取り入れることで,生成されたキャプションの品質と細部が向上することがわかった。
関連論文リスト
- Can Impressions of Music be Extracted from Thumbnail Images? [20.605634973566573]
音楽データとそれに対応する自然言語記述からなる大規模な公開データセットは、音楽キャプションとして知られています。
音楽サムネイル画像から推定される非音楽的側面を取り入れた音楽キャプションデータを生成する手法を提案する。
非音楽的側面を含む約360,000字幕のデータセットを作成し,音楽検索モデルを訓練した。
論文 参考訳(メタデータ) (2025-01-05T11:51:38Z) - Enriching Music Descriptions with a Finetuned-LLM and Metadata for Text-to-Music Retrieval [7.7464988473650935]
Text-to-Music Retrievalは、広範な音楽データベース内のコンテンツ発見において重要な役割を担っている。
本稿では,TTMR++と呼ばれる改良されたテキスト・音楽検索モデルを提案する。
論文 参考訳(メタデータ) (2024-10-04T09:33:34Z) - Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation [18.12051302437043]
本稿では,時間的構成による生成的拡張から学習することで,微粒化音楽理解機能を備えたモデルを提案する。
既存の音楽キャプションデータセットと大言語モデル(LLM)を利用して、フル長曲の詳細な音楽キャプションを構造記述と時間境界で合成する。
論文 参考訳(メタデータ) (2024-07-29T22:53:32Z) - MidiCaps: A large-scale MIDI dataset with text captions [6.806050368211496]
本研究の目的は,LLMとシンボリック音楽を組み合わせることで,テキストキャプションを付加した最初の大規模MIDIデータセットを提示することである。
近年のキャプション技術の発展に触発されて,テキスト記述付き168kのMIDIファイルをキュレートしたデータセットを提示する。
論文 参考訳(メタデータ) (2024-06-04T12:21:55Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention [54.4258176885084]
曖昧な音を正確に認識する方法は、音声キャプションにとって大きな課題である。
本稿では,視覚情報を利用して不明瞭な音の物体の記述を支援する視覚認識型音声キャプションを提案する。
提案手法は,機械翻訳メトリクスの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T22:45:41Z) - MusCaps: Generating Captions for Music Audio [14.335950077921435]
時間的注目のエンコーダデコーダで構成された最初の音楽オーディオキャプションモデルであるMusCapsを紹介します。
本手法は畳み込み型ニューラルネットワークアーキテクチャと繰り返し型ニューラルネットワークアーキテクチャを組み合わせて,音声テキスト入力を共同処理する。
我々のモデルは、分類に基づく音楽記述から脱却し、聴覚と言語の両方の理解を必要とするタスクを組み合わせている。
論文 参考訳(メタデータ) (2021-04-24T16:34:47Z) - Multi-Modal Music Information Retrieval: Augmenting Audio-Analysis with
Visual Computing for Improved Music Video Analysis [91.3755431537592]
この論文は、音声分析とコンピュータビジョンを組み合わせて、マルチモーダルの観点から音楽情報検索(MIR)タスクにアプローチする。
本研究の主な仮説は、ジャンルやテーマなど特定の表現的カテゴリーを視覚的内容のみに基づいて認識できるという観察に基づいている。
実験は、3つのMIRタスクに対して行われ、アーティスト識別、音楽ジェネア分類、クロスジェネア分類を行う。
論文 参考訳(メタデータ) (2020-02-01T17:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。