論文の概要: KuiSCIMA v2.0: Improved Baselines, Calibration, and Cross-Notation Generalization for Historical Chinese Music Notations in Jiang Kui's Baishidaoren Gequ
- arxiv url: http://arxiv.org/abs/2507.18741v1
- Date: Thu, 24 Jul 2025 18:40:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 16:16:48.723612
- Title: KuiSCIMA v2.0: Improved Baselines, Calibration, and Cross-Notation Generalization for Historical Chinese Music Notations in Jiang Kui's Baishidaoren Gequ
- Title(参考訳): KuiSCIMA v2.0: 広義の中国音楽表記におけるベースライン、校正、クロスノベーションの一般化
- Authors: Tristan Repolusk, Eduardo Veas,
- Abstract要約: 本稿は1202年(建仁2年)の江空の影響力あるコレクション『梅紙田蘭画』の光学音楽認識の大幅な進歩について紹介する。
不均衡なデータに対する文字認識モデルを開発し,評価する。
我々のモデルは、平均的な人間のCERが15.9%、ベストケースのCERが7.6%という、人間のトランスクライバーよりも優れています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Optical Music Recognition (OMR) for historical Chinese musical notations, such as suzipu and l\"ul\"upu, presents unique challenges due to high class imbalance and limited training data. This paper introduces significant advancements in OMR for Jiang Kui's influential collection Baishidaoren Gequ from 1202. In this work, we develop and evaluate a character recognition model for scarce imbalanced data. We improve upon previous baselines by reducing the Character Error Rate (CER) from 10.4% to 7.1% for suzipu, despite working with 77 highly imbalanced classes, and achieve a remarkable CER of 0.9% for l\"ul\"upu. Our models outperform human transcribers, with an average human CER of 15.9% and a best-case CER of 7.6%. We employ temperature scaling to achieve a well-calibrated model with an Expected Calibration Error (ECE) below 0.0162. Using a leave-one-edition-out cross-validation approach, we ensure robust performance across five historical editions. Additionally, we extend the KuiSCIMA dataset to include all 109 pieces from Baishidaoren Gequ, encompassing suzipu, l\"ul\"upu, and jianzipu notations. Our findings advance the digitization and accessibility of historical Chinese music, promoting cultural diversity in OMR and expanding its applicability to underrepresented music traditions.
- Abstract(参考訳): スズープやl\"ul\upuのような歴史的中国の音楽表記のための光学音楽認識(OMR)は、高い等級の不均衡と限られた訓練データによる独特な課題を提示する。
本稿は、1202年(建仁2年)の江空の影響力あるコレクション『梅石田蘭画』のOMRの大幅な進歩を紹介する。
本研究では,少ない不均衡データに対する文字認識モデルの開発と評価を行う。
我々は,77の高度不均衡クラスで作業しながら,スズープの文字誤り率(CER)を10.4%から7.1%に下げることにより,従来の基準値を改善するとともに,l\"ul\upuで0.9%の顕著なCERを実現する。
我々のモデルは、平均的な人間のCERが15.9%、ベストケースのCERが7.6%という、人間のトランスクライバーよりも優れています。
温度スケーリングを用いて,予測校正誤差(ECE)を0.0162以下とした校正モデルを構築した。
5つの歴史的版にまたがって頑健な性能を確保するため,一編一編のクロスバリデーション・アプローチを取り入れた。
さらに、KuiSCIMAデータセットを拡張して、Suzipu, l\"ul\upu, jianzipuの表記を含むBaishidaoren Gequの109点すべてを含むようにした。
歴史的中国音楽のデジタル化とアクセシビリティの向上,OMRの文化的多様性の促進,そして過小評価された音楽の伝統への適用性の拡大について検討した。
関連論文リスト
- ShrutiSense: Microtonal Modeling and Correction in Indian Classical Music [0.0]
インドの古典音楽は22シュルーティス(ピッチ間隔)の洗練されたマイクロトンシステムに依存している
既存のシンボリック・ミュージック・プロセッシング・ツールでは、これらのマイクロトナーの区別や文化的に特有のラガの文法を説明できない。
インド古典音楽のための総合的な記号ピッチ処理システムであるShrutiSenseを紹介する。
論文 参考訳(メタデータ) (2025-08-02T21:42:47Z) - CultureMERT: Continual Pre-Training for Cross-Cultural Music Representation Learning [55.80320947983555]
CultureMERT-95Mは、異文化間の音楽表現学習を強化するために開発された多文化的な基礎モデルである。
650時間のマルチカルチャーデータ混合のトレーニングは、様々な西洋音楽のオートタグタスクにおいて、ROC-AUCとAPの平均4.9%の改善をもたらす。
タスク算術は、西欧以外の自動タグタスクの多文化的に訓練されたモデルと同等に機能し、西洋のデータセットに回帰しない。
論文 参考訳(メタデータ) (2025-06-21T21:16:39Z) - Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - Music for All: Representational Bias and Cross-Cultural Adaptability of Music Generation Models [13.568559786822457]
本稿では,音楽生成のためのデータセットと研究論文について述べる。
既存の音楽データセットの合計時間のうち、西洋以外のジャンルから得られる時間はわずか5.7%である。
論文 参考訳(メタデータ) (2025-02-11T07:46:29Z) - Instruct-Tuning Pretrained Causal Language Models for Ancient Greek Papyrology and Epigraphy [0.0]
本稿は、古代ギリシアの碑文やドキュメンタリーパピルスの欠落した文字を復元するために、事前訓練された因果関係言語モデルを微調整する実験について述べる。
最新技術モデル (Ithaca) と比較すると、テキスト復元に優れた命令調整モデルである。
以上の結果から,修正および予想のための命令テンプレートを用いた事前学習型因果言語モデルの微調整が有望であることが示唆された。
論文 参考訳(メタデータ) (2024-09-20T19:49:45Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - HAAQI-Net: A Non-intrusive Neural Music Audio Quality Assessment Model for Hearing Aids [30.305000305766193]
本稿では,難聴者を対象とした非侵襲的ディープラーニングに基づく音質評価モデルであるHAAQI-Netを紹介する。
HAAQIのスコアは、音楽のオーディオクリップや聴覚障害パターンから直接予測できる。
論文 参考訳(メタデータ) (2024-01-02T10:55:01Z) - CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market [61.59326951366202]
我々は、中国株式政策検索データセット(CSPRD)を導入して、新たな課題である政策検索を提案する。
CSPRDは、中国の政策コーパスの10k以上の項目から、経験豊富な専門家によってラベル付けされた700以上のパスを提供する。
我々の最高のパフォーマンスベースラインは56.1% MRR@10、28.5% NDCG@10、37.5% Recall@10、80.6% Precision@10である。
論文 参考訳(メタデータ) (2023-09-08T15:40:54Z) - HUE: Pretrained Model and Dataset for Understanding Hanja Documents of
Ancient Korea [59.35609710776603]
我々は、時系列属性、トピック分類、名前付きエンティティ認識、要約検索タスクからなるハンハ理解評価データセットをリリースする。
また、本研究では、14世紀から19世紀にかけての2つの主要なコーパスについて、ヨセオン王朝のアンナスと王立事務局の日記のトレーニングを継続したBERTベースのモデルについても紹介する。
論文 参考訳(メタデータ) (2022-10-11T03:04:28Z) - Reliable Label Correction is a Good Booster When Learning with Extremely
Noisy Labels [65.79898033530408]
極音下での学習に明示的に取り組むために,LC-Boosterと呼ばれる新しい枠組みを導入する。
LC-Boosterは、ラベル補正をサンプル選択に組み込むことで、信頼性の高いラベル修正を通じて、より精製されたサンプルをトレーニングに利用することができる。
実験により、LC-Boosterはいくつかのノイズラベルベンチマークで最先端の結果を前進させることが示された。
論文 参考訳(メタデータ) (2022-04-30T07:19:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。