論文の概要: Unified Cross-modal Translation of Score Images, Symbolic Music, and Performance Audio
- arxiv url: http://arxiv.org/abs/2505.12863v1
- Date: Mon, 19 May 2025 08:46:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.496045
- Title: Unified Cross-modal Translation of Score Images, Symbolic Music, and Performance Audio
- Title(参考訳): スコア・イメージ・シンボリック・ミュージック・パフォーマンス・オーディオの統一的クロスモーダル翻訳
- Authors: Jongmin Jung, Dongmin Kim, Sihun Lee, Seola Cho, Hyungjoon Soh, Irmak Bukey, Chris Donahue, Dasaem Jeong,
- Abstract要約: 我々は、多くの翻訳タスクで汎用モデルを同時に訓練する。
本稿では,新しい大規模データセットと各モダリティのトークン化を提案する。
提案手法は,最初の楽譜条件付き音声生成を実現する。
- 参考スコア(独自算出の注目度): 7.518711227993383
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Music exists in various modalities, such as score images, symbolic scores, MIDI, and audio. Translations between each modality are established as core tasks of music information retrieval, such as automatic music transcription (audio-to-MIDI) and optical music recognition (score image to symbolic score). However, most past work on multimodal translation trains specialized models on individual translation tasks. In this paper, we propose a unified approach, where we train a general-purpose model on many translation tasks simultaneously. Two key factors make this unified approach viable: a new large-scale dataset and the tokenization of each modality. Firstly, we propose a new dataset that consists of more than 1,300 hours of paired audio-score image data collected from YouTube videos, which is an order of magnitude larger than any existing music modal translation datasets. Secondly, our unified tokenization framework discretizes score images, audio, MIDI, and MusicXML into a sequence of tokens, enabling a single encoder-decoder Transformer to tackle multiple cross-modal translation as one coherent sequence-to-sequence task. Experimental results confirm that our unified multitask model improves upon single-task baselines in several key areas, notably reducing the symbol error rate for optical music recognition from 24.58% to a state-of-the-art 13.67%, while similarly substantial improvements are observed across the other translation tasks. Notably, our approach achieves the first successful score-image-conditioned audio generation, marking a significant breakthrough in cross-modal music generation.
- Abstract(参考訳): 音楽は、スコア画像、シンボリックスコア、MIDI、オーディオなど、様々な形態で存在している。
各モダリティ間の翻訳は、音楽情報検索のコアタスクとして確立され、例えば、自動音楽書き起こし(audio-to-MIDI)や光音楽認識(スコア画像からシンボリックスコア)などである。
しかし、過去の多モーダル翻訳列車では、個々の翻訳作業に関するモデルを特化していた。
本稿では,多くの翻訳タスクにおいて汎用モデルを同時に訓練する統一的な手法を提案する。
新しい大規模データセットと各モダリティのトークン化である。
まず、YouTubeビデオから収集した1,300時間以上のペア音声スコア画像データからなる新しいデータセットを提案する。
第2に,我々の統一トークン化フレームワークは,スコア画像,オーディオ,MIDI,音楽XMLを一連のトークンに識別し,単一のエンコーダ・デコーダ変換器で複数のモーダル変換を1つのコヒーレントなシーケンス・ツー・シーケンスタスクとして扱えるようにする。
実験結果から,光音楽認識におけるシンボル誤り率を24.58%から13.67%に下げるなど,複数の重要な領域において,統一マルチタスクモデルが単一タスクベースラインで改善されることが確認された。
特に,本手法は楽譜条件付きオーディオ生成を初めて成功させ,クロスモーダル音楽生成において画期的なブレークスルーとなる。
関連論文リスト
- AudioX: Diffusion Transformer for Anything-to-Audio Generation [72.84633243365093]
AudioXはAnything-to-Audio and Music Generation用の統合拡散トランスフォーマーモデルである。
オーディオと音楽の両方を高品質で生成でき、柔軟性のある自然言語コントロールを提供する。
データ不足に対処するため、VGGSoundデータセットに基づく190Kの音声キャプションを持つvggsound-capと、V2Mデータセットから派生した600万の音楽キャプションを持つV2M-capの2つのデータセットをキュレートする。
論文 参考訳(メタデータ) (2025-03-13T16:30:59Z) - UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。
音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文 参考訳(メタデータ) (2024-10-06T16:04:05Z) - PerTok: Expressive Encoding and Modeling of Symbolic Musical Ideas and Variations [0.3683202928838613]
Cadenzaは、シンボリック・ミュージック・アイデアの表現的バリエーションを予測するための、新しい多段階生成フレームワークである。
提案するフレームワークは,1)コンストラクタと2)パフォーマの2段階からなる。
我々のフレームワークはミュージシャンにインスピレーションを与える目的で設計、研究、実装されている。
論文 参考訳(メタデータ) (2024-10-02T22:11:31Z) - MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - An Comparative Analysis of Different Pitch and Metrical Grid Encoding
Methods in the Task of Sequential Music Generation [4.941630596191806]
本稿では,トークンベースの逐次音楽生成モデルの性能に及ぼすピッチとメーターの影響について分析する。
グリッド解像度は0(アブレーション),1(バーレベル),4(ダウンビートレベル),4(ダウンビートレベル),8(ダウンビートレベル),64(64番目のノートグリッドレベル)までのシングルトークンアプローチとマルチトークンアプローチを比較する。
以上の結果から,クラスオクターブの符号化は,ピッチ関連測定値に基づいてグラニュル化したMIDI符号化よりも有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-01-31T03:19:50Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。