論文の概要: Unified Cross-modal Translation of Score Images, Symbolic Music, and Performance Audio
- arxiv url: http://arxiv.org/abs/2505.12863v1
- Date: Mon, 19 May 2025 08:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.496045
- Title: Unified Cross-modal Translation of Score Images, Symbolic Music, and Performance Audio
- Title(参考訳): スコア・イメージ・シンボリック・ミュージック・パフォーマンス・オーディオの統一的クロスモーダル翻訳
- Authors: Jongmin Jung, Dongmin Kim, Sihun Lee, Seola Cho, Hyungjoon Soh, Irmak Bukey, Chris Donahue, Dasaem Jeong,
- Abstract要約: 我々は、多くの翻訳タスクで汎用モデルを同時に訓練する。
本稿では,新しい大規模データセットと各モダリティのトークン化を提案する。
提案手法は,最初の楽譜条件付き音声生成を実現する。
- 参考スコア(独自算出の注目度): 7.518711227993383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music exists in various modalities, such as score images, symbolic scores, MIDI, and audio. Translations between each modality are established as core tasks of music information retrieval, such as automatic music transcription (audio-to-MIDI) and optical music recognition (score image to symbolic score). However, most past work on multimodal translation trains specialized models on individual translation tasks. In this paper, we propose a unified approach, where we train a general-purpose model on many translation tasks simultaneously. Two key factors make this unified approach viable: a new large-scale dataset and the tokenization of each modality. Firstly, we propose a new dataset that consists of more than 1,300 hours of paired audio-score image data collected from YouTube videos, which is an order of magnitude larger than any existing music modal translation datasets. Secondly, our unified tokenization framework discretizes score images, audio, MIDI, and MusicXML into a sequence of tokens, enabling a single encoder-decoder Transformer to tackle multiple cross-modal translation as one coherent sequence-to-sequence task. Experimental results confirm that our unified multitask model improves upon single-task baselines in several key areas, notably reducing the symbol error rate for optical music recognition from 24.58% to a state-of-the-art 13.67%, while similarly substantial improvements are observed across the other translation tasks. Notably, our approach achieves the first successful score-image-conditioned audio generation, marking a significant breakthrough in cross-modal music generation.
- Abstract(参考訳): 音楽は、スコア画像、シンボリックスコア、MIDI、オーディオなど、様々な形態で存在している。
各モダリティ間の翻訳は、音楽情報検索のコアタスクとして確立され、例えば、自動音楽書き起こし(audio-to-MIDI)や光音楽認識(スコア画像からシンボリックスコア)などである。
しかし、過去の多モーダル翻訳列車では、個々の翻訳作業に関するモデルを特化していた。
本稿では,多くの翻訳タスクにおいて汎用モデルを同時に訓練する統一的な手法を提案する。
新しい大規模データセットと各モダリティのトークン化である。
まず、YouTubeビデオから収集した1,300時間以上のペア音声スコア画像データからなる新しいデータセットを提案する。
第2に,我々の統一トークン化フレームワークは,スコア画像,オーディオ,MIDI,音楽XMLを一連のトークンに識別し,単一のエンコーダ・デコーダ変換器で複数のモーダル変換を1つのコヒーレントなシーケンス・ツー・シーケンスタスクとして扱えるようにする。
実験結果から,光音楽認識におけるシンボル誤り率を24.58%から13.67%に下げるなど,複数の重要な領域において,統一マルチタスクモデルが単一タスクベースラインで改善されることが確認された。
特に,本手法は楽譜条件付きオーディオ生成を初めて成功させ,クロスモーダル音楽生成において画期的なブレークスルーとなる。
関連論文リスト
- AudioX: Diffusion Transformer for Anything-to-Audio Generation [72.84633243365093]
AudioXはAnything-to-Audio and Music Generation用の統合拡散トランスフォーマーモデルである。
オーディオと音楽の両方を高品質で生成でき、柔軟性のある自然言語コントロールを提供する。
データ不足に対処するため、VGGSoundデータセットに基づく190Kの音声キャプションを持つvggsound-capと、V2Mデータセットから派生した600万の音楽キャプションを持つV2M-capの2つのデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-03-13T16:30:59Z) - UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。
音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文 参考訳(メタデータ) (2024-10-06T16:04:05Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - An Comparative Analysis of Different Pitch and Metrical Grid Encoding
Methods in the Task of Sequential Music Generation [4.941630596191806]
本稿では,トークンベースの逐次音楽生成モデルの性能に及ぼすピッチとメーターの影響について分析する。
グリッド解像度は0(アブレーション),1(バーレベル),4(ダウンビートレベル),4(ダウンビートレベル),8(ダウンビートレベル),64(64番目のノートグリッドレベル)までのシングルトークンアプローチとマルチトークンアプローチを比較する。
以上の結果から,クラスオクターブの符号化は,ピッチ関連測定値に基づいてグラニュル化したMIDI符号化よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-01-31T03:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。