論文の概要: The Renaissance of Expert Systems: Optical Recognition of Printed Chinese Jianpu Musical Scores with Lyrics
- arxiv url: http://arxiv.org/abs/2512.14758v1
- Date: Mon, 15 Dec 2025 15:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.726778
- Title: The Renaissance of Expert Systems: Optical Recognition of Printed Chinese Jianpu Musical Scores with Lyrics
- Title(参考訳): エキスパートシステムのルネサンス--漢譜楽譜と歌詞の光学的認識
- Authors: Fan Bu, Rongfeng Li, Zijin Li, Ya Li, Linfeng Fan, Pei Huang,
- Abstract要約: 本稿では,印刷されたJianpuのスコアと歌詞を機械可読なMusicXMLとMIDIに変換するモジュール型エキスパートシステムパイプラインを提案する。
このシステムは、メロディ(ノートワイズF1 = 0.951)とアライメント歌詞の両方で高精度な認識を実現する。
- 参考スコア(独自算出の注目度): 8.267152843754557
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large-scale optical music recognition (OMR) research has focused mainly on Western staff notation, leaving Chinese Jianpu (numbered notation) and its rich lyric resources underexplored. We present a modular expert-system pipeline that converts printed Jianpu scores with lyrics into machine-readable MusicXML and MIDI, without requiring massive annotated training data. Our approach adopts a top-down expert-system design, leveraging traditional computer-vision techniques (e.g., phrase correlation, skeleton analysis) to capitalize on prior knowledge, while integrating unsupervised deep-learning modules for image feature embeddings. This hybrid strategy strikes a balance between interpretability and accuracy. Evaluated on The Anthology of Chinese Folk Songs, our system massively digitizes (i) a melody-only collection of more than 5,000 songs (> 300,000 notes) and (ii) a curated subset with lyrics comprising over 1,400 songs (> 100,000 notes). The system achieves high-precision recognition on both melody (note-wise F1 = 0.951) and aligned lyrics (character-wise F1 = 0.931).
- Abstract(参考訳): 大規模な光学音楽認識(OMR)研究は、主に西洋のスタッフの表記に焦点を当てており、中国のジャンプ(番号付き表記)とその豊富な歌詞資源が不足している。
本稿では,印刷されたJianpuスコアを機械可読のMusicXMLやMIDIに変換するモジュール型エキスパートシステムパイプラインを提案する。
提案手法では,従来のコンピュータビジョン技術(フレーズ相関,スケルトン解析など)を活用して,事前知識を活用するとともに,教師なしのディープラーニングモジュールを画像特徴埋め込みに組み込むことにより,トップダウンのエキスパートシステム設計を採用する。
このハイブリッド戦略は、解釈可能性と精度のバランスをとる。
中国の民謡のアンソロジーを評価すると、我々のシステムは大幅にデジタル化する
(i)5,000曲以上(→30万曲)とメロディのみのコレクション
(ii)歌詞が1,400曲以上(→10万曲)の曲群。
このシステムは、メロディ(ノートワイズF1 = 0.951)とアライメント歌詞(キャラクタワイズF1 = 0.931)の両方で高精度な認識を実現する。
関連論文リスト
- Discovering "Words" in Music: Unsupervised Learning of Compositional Sparse Code for Symbolic Music [50.87225308217594]
本稿では,記号的音楽データから「音楽単語」と呼ばれる繰り返しパターンを識別する教師なし機械学習アルゴリズムを提案する。
本稿では,音楽単語発見の課題を統計的最適化問題として定式化し,二段階予測最大化(EM)に基づく学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-29T11:10:57Z) - NOTA: Multimodal Music Notation Understanding for Visual Large Language Model [38.26693446133213]
大規模な総合マルチモーダル音楽表記データセットであるNOTAを提案する。
世界の3つの地域からの1,019,237のレコードで構成され、3つのタスクを含んでいる。
このデータセットに基づいて,音楽表記の視覚的大言語モデルであるNotaGPTを訓練した。
論文 参考訳(メタデータ) (2025-02-17T16:39:19Z) - CLaMP 2: Multimodal Music Information Retrieval Across 101 Languages Using Large Language Models [51.03510073676228]
CLaMP 2は、音楽情報検索用の101言語に対応するシステムである。
大規模言語モデルを活用することで,大規模に洗練され一貫した多言語記述が得られる。
CLaMP 2は、多言語セマンティックサーチとモーダル間の音楽分類において、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-10-17T06:43:54Z) - Quantifying the Corpus Bias Problem in Automatic Music Transcription Systems [3.5570874721859016]
AMT(Automatic Music Transcription)は、音楽の音声録音における音符認識のタスクである。
我々は、音楽と音の2つの主要な分布シフト源を同定する。
2つの新しい実験セットにおいて,複数のSotA AMTシステムの性能評価を行った。
論文 参考訳(メタデータ) (2024-08-08T19:40:28Z) - SongComposer: A Large Language Model for Lyric and Melody Generation in Song Composition [82.38021790213752]
SongComposerは、音楽専門の大規模言語モデル(LLM)である。
3つの重要なイノベーションを活用することで、メロディーをLLMに同時に構成する能力を統合する。
歌詞からメロディへの生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成といったタスクにおいて、高度なLLMよりも優れています。
SongComposeは大規模なトレーニング用データセットで、中国語と英語の歌詞とメロディのペアを含む。
論文 参考訳(メタデータ) (2024-02-27T16:15:28Z) - Multimodal Lyrics-Rhythm Matching [0.0]
本稿では,歌詞と音楽のキーコンポーネントを相互にマッチングする,新しいマルチモーダルな歌詞・リズムマッチング手法を提案する。
楽譜の代わりに音声を使用し、メタデータを手軽に利用できるようにし、より多くの課題を生み出しますが、我々の手法の適用柔軟性は向上します。
実験の結果,平均一致確率は0.81であり,曲の約30%は強拍に着地するキーワードの0.9以上の確率を持つことがわかった。
論文 参考訳(メタデータ) (2023-01-06T22:24:53Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z) - Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。
入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-28T02:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。