論文の概要: MuseTok: Symbolic Music Tokenization for Generation and Semantic Understanding
- arxiv url: http://arxiv.org/abs/2510.16273v1
- Date: Sat, 18 Oct 2025 00:04:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.926266
- Title: MuseTok: Symbolic Music Tokenization for Generation and Semantic Understanding
- Title(参考訳): MuseTok: 生成と意味理解のためのシンボリック音楽トークン化
- Authors: Jingyue Huang, Zachary Novack, Phillip Long, Yupeng Hou, Ke Chen, Taylor Berg-Kirkpatrick, Julian McAuley,
- Abstract要約: シンボリック音楽のトークン化手法であるMuseTokを提案する。
MuseTokは、Transformerベースのエンコーダ・デコーダフレームワーク内のバーワイズ音楽セグメントに残差ベクトル量子化変分オートエンコーダ(RQ-VAE)を使用している。
包括的な評価のために、メロディ抽出、コード認識、感情認識を含む音楽生成および意味理解タスクにMuseTokを適用した。
- 参考スコア(独自算出の注目度): 46.89003337712407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete representation learning has shown promising results across various domains, including generation and understanding in image, speech and language. Inspired by these advances, we propose MuseTok, a tokenization method for symbolic music, and investigate its effectiveness in both music generation and understanding tasks. MuseTok employs the residual vector quantized-variational autoencoder (RQ-VAE) on bar-wise music segments within a Transformer-based encoder-decoder framework, producing music codes that achieve high-fidelity music reconstruction and accurate understanding of music theory. For comprehensive evaluation, we apply MuseTok to music generation and semantic understanding tasks, including melody extraction, chord recognition, and emotion recognition. Models incorporating MuseTok outperform previous representation learning baselines in semantic understanding while maintaining comparable performance in content generation. Furthermore, qualitative analyses on MuseTok codes, using ground-truth categories and synthetic datasets, reveal that MuseTok effectively captures underlying musical concepts from large music collections.
- Abstract(参考訳): 離散表現学習は、画像、音声、言語の生成と理解など、様々な領域で有望な結果を示している。
これらの進歩に触発されて,シンボリック音楽のトークン化手法であるMuseTokを提案し,その音楽生成と理解作業における有効性について検討する。
MuseTokは、トランスフォーマーベースのエンコーダデコーダフレームワーク内のバーワイド音楽セグメントに残差ベクトル量子化変分オートエンコーダ(RQ-VAE)を採用し、高忠実な音楽再構成と音楽理論の正確な理解を実現する音楽コードを生成する。
包括的な評価のために、メロディ抽出、コード認識、感情認識を含む音楽生成および意味理解タスクにMuseTokを適用した。
MuseTokを組み込んだモデルは、コンテンツ生成における同等のパフォーマンスを維持しながら、セマンティック理解における従来の表現学習ベースラインを上回っている。
さらに、MuseTok符号の質的分析は、地上構造分類と合成データセットを用いて、MuseTokが大きな音楽コレクションから根底にある音楽概念を効果的に捉えていることを明らかにする。
関連論文リスト
- Discovering "Words" in Music: Unsupervised Learning of Compositional Sparse Code for Symbolic Music [50.87225308217594]
本稿では,記号的音楽データから「音楽単語」と呼ばれる繰り返しパターンを識別する教師なし機械学習アルゴリズムを提案する。
本稿では,音楽単語発見の課題を統計的最適化問題として定式化し,二段階予測最大化(EM)に基づく学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-29T11:10:57Z) - Semantic-Aware Interpretable Multimodal Music Auto-Tagging [1.8541450825478398]
本稿では,音楽に有意義なマルチモーダル特徴群を利用した自動タグ付けのための解釈可能なフレームワークを提案する。
提案手法は,意思決定プロセスのより深い理解を提供しながら,競争力のあるタグ付け性能を実現する。
論文 参考訳(メタデータ) (2025-05-22T19:15:48Z) - MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z) - MusCaps: Generating Captions for Music Audio [14.335950077921435]
時間的注目のエンコーダデコーダで構成された最初の音楽オーディオキャプションモデルであるMusCapsを紹介します。
本手法は畳み込み型ニューラルネットワークアーキテクチャと繰り返し型ニューラルネットワークアーキテクチャを組み合わせて,音声テキスト入力を共同処理する。
我々のモデルは、分類に基づく音楽記述から脱却し、聴覚と言語の両方の理解を必要とするタスクを組み合わせている。
論文 参考訳(メタデータ) (2021-04-24T16:34:47Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。