論文の概要: ShrutiSense: Microtonal Modeling and Correction in Indian Classical Music
- arxiv url: http://arxiv.org/abs/2508.01498v1
- Date: Sat, 02 Aug 2025 21:42:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.906078
- Title: ShrutiSense: Microtonal Modeling and Correction in Indian Classical Music
- Title(参考訳): シュルティセンス:インド古典音楽におけるマイクロトンモデリングと補正
- Authors: Rajarshi Ghosh, Jayanth Athipatla,
- Abstract要約: インドの古典音楽は22シュルーティス(ピッチ間隔)の洗練されたマイクロトンシステムに依存している
既存のシンボリック・ミュージック・プロセッシング・ツールでは、これらのマイクロトナーの区別や文化的に特有のラガの文法を説明できない。
インド古典音楽のための総合的な記号ピッチ処理システムであるShrutiSenseを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Indian classical music relies on a sophisticated microtonal system of 22 shrutis (pitch intervals), which provides expressive nuance beyond the 12-tone equal temperament system. Existing symbolic music processing tools fail to account for these microtonal distinctions and culturally specific raga grammars that govern melodic movement. We present ShrutiSense, a comprehensive symbolic pitch processing system designed for Indian classical music, addressing two critical tasks: (1) correcting westernized or corrupted pitch sequences, and (2) completing melodic sequences with missing values. Our approach employs complementary models for different tasks: a Shruti-aware finite-state transducer (FST) that performs contextual corrections within the 22-shruti framework and a grammar-constrained Shruti hidden Markov model (GC-SHMM) that incorporates raga-specific transition rules for contextual completions. Comprehensive evaluation on simulated data across five ragas demonstrates that ShrutiSense (FST model) achieves 91.3% shruti classification accuracy for correction tasks, with example sequences showing 86.7-90.0% accuracy at corruption levels of 0.2 to 0.4. The system exhibits robust performance under pitch noise up to +/-50 cents, maintaining consistent accuracy across ragas (90.7-91.8%), thus preserving the cultural authenticity of Indian classical music expression.
- Abstract(参考訳): インドの古典音楽は22シュルーティス(ピッチ間隔)の洗練されたマイクロトナーシステムに依存しており、12音の等質なテンペラメントシステムを超えて表現的なニュアンスを提供している。
既存の象徴的な音楽処理ツールは、これらのマイクロトナーの区別や、メロディ運動を管理する文化的に特定のラガ文法を説明できない。
インド古典音楽のための総合的な記号ピッチ処理システムであるShrutiSenseについて述べる。
提案手法では,22-shrutiフレームワーク内で文脈修正を行うShruti対応有限状態トランスデューサ(FST)と,文脈補完のためのラガ固有の遷移規則を組み込んだ文法制約付きShruti隠れマルコフモデル(GC-SHMM)を用いる。
シュルティセンス(FSTモデル)が補正作業において91.3%のシュルティ分類精度を達成していることが5つのラガのシミュレーションデータに対する総合的な評価によって示され、例えば、0.2から0.4の汚損レベルにおいて86.7-90.0%の精度を示すシーケンスが示されている。
このシステムはピッチノイズ下での堅牢な性能を+/-50セントまで発揮し、ラガ(90.7-91.8%)の精度を維持し、インドの古典音楽表現の文化的信頼性を保っている。
関連論文リスト
- Chinchunmei at SemEval-2025 Task 11: Boosting the Large Language Model's Capability of Emotion Perception using Contrastive Learning [7.7913577883363425]
SemEval-2025 Task 11 テキストベース感情検出のギャップを埋めることにより、28以上の言語にまたがる感情認識の課題が導入された。
このコンペティションは、感情表現の多様性と背景の変化によって引き起こされる課題に対処する、より高度なアプローチを模索することを奨励する。
本システムでは、トラックAで9位、トラックBで6位、他の言語でトップレベルのパフォーマンスシステムでは1位にランクインした。
論文 参考訳(メタデータ) (2025-07-21T15:25:47Z) - CultureMERT: Continual Pre-Training for Cross-Cultural Music Representation Learning [55.80320947983555]
CultureMERT-95Mは、異文化間の音楽表現学習を強化するために開発された多文化的な基礎モデルである。
650時間のマルチカルチャーデータ混合のトレーニングは、様々な西洋音楽のオートタグタスクにおいて、ROC-AUCとAPの平均4.9%の改善をもたらす。
タスク算術は、西欧以外の自動タグタスクの多文化的に訓練されたモデルと同等に機能し、西洋のデータセットに回帰しない。
論文 参考訳(メタデータ) (2025-06-21T21:16:39Z) - Music for All: Representational Bias and Cross-Cultural Adaptability of Music Generation Models [13.568559786822457]
本稿では,音楽生成のためのデータセットと研究論文について述べる。
既存の音楽データセットの合計時間のうち、西洋以外のジャンルから得られる時間はわずか5.7%である。
論文 参考訳(メタデータ) (2025-02-11T07:46:29Z) - Music102: An $D_{12}$-equivariant transformer for chord progression accompaniment [0.0]
Music102は、$D_12$-equivariant Transformerによるコード進行伴奏の強化を目的とした高度なモデルである。
グループ理論とシンボリック音楽構造にインスパイアされたMusic102は、トランスポジションやリフレクション操作のような音楽対称性を活用し、これらの特性をトランスフォーマーアーキテクチャに統合する。
論文 参考訳(メタデータ) (2024-10-23T03:11:01Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Face-to-Music Translation Using a Distance-Preserving Generative
Adversarial Network with an Auxiliary Discriminator [5.478764356647437]
本稿では,人間の顔の画像を音声領域に翻訳するための距離保存型生成逆変換モデルを提案する。
オーディオドメインは、10の異なる楽器ファミリーによって記録された音符の集合によって定義される。
距離保存を実施するために、顔の対距離と翻訳された音声サンプルとの差を罰する損失項を用いる。
論文 参考訳(メタデータ) (2020-06-24T04:17:40Z) - Bach or Mock? A Grading Function for Chorales in the Style of J.S. Bach [74.09517278785519]
本稿では,J.S.バッハ様式の4パート合唱曲を重要な音楽的特徴とともに評価するグレーディング機能を提案する。
この機能は,Bach合唱曲とモデル生成の合唱曲を区別する上で,人間専門家より優れていることを示す。
論文 参考訳(メタデータ) (2020-06-23T21:02:55Z) - SongNet: Rigid Formats Controlled Text Generation [51.428634666559724]
この問題に対処するために,SongNetというシンプルでエレガントなフレームワークを提案する。
フレームワークのバックボーンは、Transformerベースの自動回帰言語モデルである。
事前学習および微調整のフレームワークは、生成品質をさらに向上するために設計されている。
論文 参考訳(メタデータ) (2020-04-17T01:40:18Z) - Deep Autotuner: a Pitch Correcting Network for Singing Performances [26.019582802302033]
独唱演奏の自動ピッチ補正のためのデータ駆動方式を提案する。
良いイントネーションのために選択された4,702人のアマチュアカラオケパフォーマンスのデータセットを用いてニューラルネットワークモデルをトレーニングする。
畳み込み層上にゲートリカレントユニットを配置したディープニューラルネットワークは,実世界の楽譜なしの歌唱ピッチ補正タスクにおいて,有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-12T01:33:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。