Fugu-MT 論文翻訳(概要): Voices of the Mountains: Deep Learning-Based Vocal Error Detection System for Kurdish Maqams

論文の概要: Voices of the Mountains: Deep Learning-Based Vocal Error Detection System for Kurdish Maqams

arxiv url: http://arxiv.org/abs/2602.20744v1
Date: Tue, 24 Feb 2026 10:17:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.710877
Title: Voices of the Mountains: Deep Learning-Based Vocal Error Detection System for Kurdish Maqams
Title（参考訳）: 山岳の音声:クルド人の深層学習に基づく音声誤り検出システム
Authors: Darvan Shvan Khairaldeen, Hossein Hassani,
Abstract要約: 歌唱のタイプであるマカームはクルド音楽の重要な要素である。ウィンドウがエラーを含むか否かを判定し,それを分類するために,アテンションモード付き2面CNN-BiLSTMを開発した。スコアが0.750の50曲評価では、リコールは39.4%、精度は25.8%だった。
参考スコア（独自算出の注目度）: 1.3464152928754487
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Maqam, a singing type, is a significant component of Kurdish music. A maqam singer receives training in a traditional face-to-face or through self-training. Automatic Singing Assessment (ASA) uses machine learning (ML) to provide the accuracy of singing styles and can help learners to improve their performance through error detection. Currently, the available ASA tools follow Western music rules. The musical composition requires all notes to stay within their expected pitch range from start to finish. The system fails to detect micro-intervals and pitch bends, so it identifies Kurdish maqam singing as incorrect even though the singer performs according to traditional rules. Kurdish maqam requires recognizing performance errors within microtonal spaces, which is beyond Western equal temperament. This research is the first attempt to address the mentioned gap. While many error types happen during singing, our focus is on pitch, rhythm, and modal stability errors in the context of Bayati-Kurd. We collected 50 songs from 13 vocalists ( 2-3 hours) and annotated 221 error spans (150 fine pitch, 46 rhythm, 25 modal drift). The data was segmented into 15,199 overlapping windows and converted to log-mel spectrograms. We developed a two-headed CNN-BiLSTM with attention mode to decide whether a window contains an error and to classify it based on the chosen errors. Trained for 20 epochs with early stopping at epoch 10, the model reached a validation macro-F1 of 0.468. On the full 50-song evaluation at a 0.750 threshold, recall was 39.4% and precision 25.8% . Within detected windows, type macro-F1 was 0.387, with F1 of 0.492 (fine pitch), 0.536 (rhythm), and 0.133 (modal drift); modal drift recall was 8.0%. The better performance on common error types shows that the method works, while the poor modal-drift recall shows that more data and balancing are needed.
Abstract（参考訳）: 歌唱のタイプであるマカームはクルド音楽の重要な要素である。マカム歌手は、伝統的な対面または自己訓練を通じて訓練を受ける。自動歌唱アセスメント(ASA)は、機械学習(ML)を使用して歌唱スタイルの精度を提供し、学習者が誤り検出を通じてパフォーマンスを向上させるのに役立つ。現在、ASAツールは西洋音楽のルールに従っている。作曲は、すべての音符が、開始から終了まで、期待されるピッチ範囲内に留まることを要求する。このシステムは、マイクロ・インターバルやピッチ・ベンドを検知できないため、伝統的なルールに従って演奏しても、クルド人のマカームの歌は正しくないと判断する。クルド語のmaqamは、西の等温線を超えたマイクロトナー空間内でのパフォーマンスエラーを認識する必要がある。この研究は、前述のギャップに対処する最初の試みである。歌唱中に多くのエラータイプが発生するが、ベイアティ・カルドの文脈におけるピッチ、リズム、モーダル安定性のエラーに焦点を当てている。ボーカリスト13名 (2～3時間) から50曲を採集し, 注釈付き221曲(微細ピッチ150曲, リズム46曲, モーダルドリフト25曲)を収録した。データは15,199個の重なり合う窓に分割され、対数メル分光器に変換された。ウィンドウがエラーを含むか否かを判定し,選択したエラーに基づいて分類するために,アテンションモード付き2面CNN-BiLSTMを開発した。 20エポックで訓練され、エポック10で早期停止し、0.468の検証マクロF1に達した。スコアが0.750の50曲評価では、リコールは39.4%、精度は25.8%だった。検出窓内のマクロF1は0.387、F1は0.492(ピッチ)、0.536(リズム)、0.133(モーダルドリフト)、モーダルドリフトリコールは8.0%であった。一般的なエラータイプでのより良いパフォーマンスは、メソッドが機能することを示しているが、モード-ドリフトリコールの貧弱さは、より多くのデータとバランシングが必要であることを示している。

関連論文リスト

Linguistically Informed Evaluation of Multilingual ASR for African Languages [0.7155139483398897]
We evaluate three speech encoder on two African languages by complementing WER with Feature Error Rate (FER), and add a tone-aware extension (TER)。 fer と TER は,単語レベルの精度が低い場合でも言語的に有意な誤りパターンを示す。
論文参考訳（メタデータ） (2026-02-04T16:28:04Z)
Silhouette-based Gait Foundation Model [56.27974816297294]
統一された歩行基盤モデルを構築するには、スケーラビリティと一般化の2つの長年の障壁に対処する必要がある。私たちは、歩行理解のための最初のスケーラブルでセルフ教師付き事前学習フレームワークであるFoundationGaitを紹介します。
論文参考訳（メタデータ） (2025-11-30T01:53:41Z)
ShrutiSense: Microtonal Modeling and Correction in Indian Classical Music [0.0]
インドの古典音楽は22シュルーティス(ピッチ間隔)の洗練されたマイクロトンシステムに依存している既存のシンボリック・ミュージック・プロセッシング・ツールでは、これらのマイクロトナーの区別や文化的に特有のラガの文法を説明できない。インド古典音楽のための総合的な記号ピッチ処理システムであるShrutiSenseを紹介する。
論文参考訳（メタデータ） (2025-08-02T21:42:47Z)
Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [81.62767292169225]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。確率摂動に基づく新しいアンラーニングパラダイムであるPerMUを提案する。 TOFU、Harry Potter、ZsRE、WMDP、MUSEなど、さまざまなデータセットで実験が行われている。
論文参考訳（メタデータ） (2025-02-27T11:03:33Z)
Rethinking Early Stopping: Refine, Then Calibrate [49.966899634962374]
キャリブレーション・リファインメント分解の新規な変分定式化について述べる。我々は,校正誤差と精錬誤差が訓練中に同時に最小化されないという理論的,実証的な証拠を提供する。
論文参考訳（メタデータ） (2025-01-31T15:03:54Z)
Classification Error Bound for Low Bayes Error Conditions in Machine Learning [50.25063912757367]
機械学習における誤りミスマッチとKulback-Leibler分散の関係について検討する。多くの機械学習タスクにおける低モデルに基づく分類誤差の最近の観測により、低ベイズ誤差条件に対する分類誤差の線形近似を提案する。
論文参考訳（メタデータ） (2025-01-27T11:57:21Z)
Detecting Music Performance Errors with Transformers [3.6837762419929168]
既存の音楽誤り検出ツールは自動アライメントに依存している。音楽エラー検出モデルをトレーニングするのに十分なデータが不足している。本稿では,大規模な合成音楽誤りデータセットを作成することのできる新しいデータ生成手法を提案する。
論文参考訳（メタデータ） (2025-01-03T07:04:20Z)
DPCSpell: A Transformer-based Detector-Purificator-Corrector Framework for Spelling Error Correction of Bangla and Resource Scarce Indic Languages [2.5874041837241304]
スペル訂正(スペルりょう、英: Spelling error correction)は、テキスト中のミスペル語を識別し、修正するタスクである。バングラ語と資源不足のIndic言語におけるスペルエラー訂正の取り組みは、ルールベース、統計、機械学習ベースの手法に重点を置いていた。本稿では,従来の問題に対処し,デノナイジング変換器をベースとした新しい検出器-ピューリフィエータ-コレクタDPCを提案する。
論文参考訳（メタデータ） (2022-11-07T17:59:05Z)
HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units [81.53783563025084]
本稿では、BERTのような予測損失に対して、アライメントされたターゲットラベルを提供するオフラインクラスタリングステップを提案する。提案手法の重要な要素は,マスク領域にのみ予測損失を適用することである。 HuBERTは、より困難なdev-otherおよびtest-other評価サブセットに対して、最大19%と13%の相対的なWER削減を示す。
論文参考訳（メタデータ） (2021-06-14T14:14:28Z)
Provably Robust Metric Learning [98.50580215125142]
既存のメトリクス学習アルゴリズムは、ユークリッド距離よりもロバストなメトリクスをもたらすことを示す。対向摂動に対して頑健なマハラノビス距離を求めるための新しい距離学習アルゴリズムを提案する。実験結果から,提案アルゴリズムは証明済みの堅牢な誤りと経験的堅牢な誤りの両方を改善した。
論文参考訳（メタデータ） (2020-06-12T09:17:08Z)
TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つであるパフォーマンスの天井に到達したのか、改善の余地はあるのか? ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文参考訳（メタデータ） (2020-04-30T15:07:37Z)
Deep Autotuner: a Pitch Correcting Network for Singing Performances [26.019582802302033]
独唱演奏の自動ピッチ補正のためのデータ駆動方式を提案する。良いイントネーションのために選択された4,702人のアマチュアカラオケパフォーマンスのデータセットを用いてニューラルネットワークモデルをトレーニングする。畳み込み層上にゲートリカレントユニットを配置したディープニューラルネットワークは,実世界の楽譜なしの歌唱ピッチ補正タスクにおいて,有望な性能を示す。
論文参考訳（メタデータ） (2020-02-12T01:33:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。