論文の概要: From Discord to Harmony: Decomposed Consonance-based Training for Improved Audio Chord Estimation
- arxiv url: http://arxiv.org/abs/2509.01588v1
- Date: Mon, 01 Sep 2025 16:20:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.772397
- Title: From Discord to Harmony: Decomposed Consonance-based Training for Improved Audio Chord Estimation
- Title(参考訳): 不協和音からハーモニーへ:音声コード推定の改善のための分解共和音に基づく訓練
- Authors: Andrea Poltronieri, Xavier Serra, Martín Rocamora,
- Abstract要約: 本稿では,従来の二分法を超えて拡張されたメトリクスを用いて,コードアノテーションにおけるアノテーション間合意の評価を行う。
共振器を用いたラベル平滑化により、共振器の概念をモデルに統合する新しいACEコンバータモデルを提案する。
- 参考スコア(独自算出の注目度): 9.584152437544974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio Chord Estimation (ACE) holds a pivotal role in music information research, having garnered attention for over two decades due to its relevance for music transcription and analysis. Despite notable advancements, challenges persist in the task, particularly concerning unique characteristics of harmonic content, which have resulted in existing systems' performances reaching a glass ceiling. These challenges include annotator subjectivity, where varying interpretations among annotators lead to inconsistencies, and class imbalance within chord datasets, where certain chord classes are over-represented compared to others, posing difficulties in model training and evaluation. As a first contribution, this paper presents an evaluation of inter-annotator agreement in chord annotations, using metrics that extend beyond traditional binary measures. In addition, we propose a consonance-informed distance metric that reflects the perceptual similarity between harmonic annotations. Our analysis suggests that consonance-based distance metrics more effectively capture musically meaningful agreement between annotations. Expanding on these findings, we introduce a novel ACE conformer-based model that integrates consonance concepts into the model through consonance-based label smoothing. The proposed model also addresses class imbalance by separately estimating root, bass, and all note activations, enabling the reconstruction of chord labels from decomposed outputs.
- Abstract(参考訳): 音声コード推定(ACE)は音楽情報研究において重要な役割を担い、音楽の書き起こしと分析の関連性から20年以上にわたって注目を集めてきた。
顕著な進歩にもかかわらず、特にハーモニックコンテンツの特徴に関する課題が続き、既存のシステムの性能はガラスの天井に到達した。
これらの課題には、アノテータの主観性、アノテータ間の様々な解釈が矛盾を招き、コードデータセット内のクラス不均衡、特定のコードクラスが他と比べて過剰に表現され、モデルのトレーニングと評価に困難を呈するアノテータが含まれる。
最初の貢献として,従来の二分法を超えて拡張されたメトリクスを用いて,コードアノテーションにおけるアノテータ間合意の評価を行う。
さらに,調和アノテーション間の知覚的類似性を反映した共振インフォームド距離測定法を提案する。
分析の結果,調和に基づく距離測定は,アノテーション間の音楽的に意味のある一致をより効果的に捉えることが示唆された。
これらの結果に基づき,共振概念をモデルに組み込んだ新しいACEコンバータモデルを提案する。
提案モデルはまた、ルート、ベース、およびすべての音符アクティベーションを別々に推定することでクラス不均衡に対処し、分解された出力からコードラベルを復元することを可能にする。
関連論文リスト
- Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - Why Perturbing Symbolic Music is Necessary: Fitting the Distribution of Never-used Notes through a Joint Probabilistic Diffusion Model [6.085444830169205]
既存の音楽生成モデルは大部分が言語ベースであり、音符の周波数連続性を無視する。
本稿では,音符と意味情報の連成分布に適合し,記号的な音楽条件を生成する音楽ディフアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-08-04T07:38:38Z) - COCOLA: Coherence-Oriented Contrastive Learning of Musical Audio Representations [17.218899140175697]
COCOLAは、サンプル間の調和的・リズム的コヒーレンスをキャプチャする、音響音響表現の対照的な学習方法である。
本手法は,音楽トラックを構成する幹のレベルで動作し,ハーモニック・パーカッッシブ分離(HPS)によって得られる特徴を入力できる。
論文 参考訳(メタデータ) (2024-04-25T18:42:25Z) - Serenade: A Model for Human-in-the-loop Automatic Chord Estimation [1.6385815610837167]
そこで本研究では,Human-in-the-loopアプローチにより,モデルのみのアプローチよりも高調波解析性能が向上することを示す。
我々は,ポピュラー音楽のデータセットを用いてモデル評価を行い,本手法を用いることで,モデルのみのアプローチよりも高調波解析性能が向上することを示す。
論文 参考訳(メタデータ) (2023-10-17T11:31:29Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - What You Hear Is What You See: Audio Quality Metrics From Image Quality
Metrics [44.659718609385315]
そこで本研究では,音声信号の評価に最先端画像知覚メトリクスを応用し,スペクトログラムとして表現することの実現可能性について検討する。
我々は、音響信号の特異性を考慮するために、精神音響学的に妥当なアーキテクチャを持つメトリクスの1つをカスタマイズする。
提案手法の有効性を音楽データセットを用いて評価した。
論文 参考訳(メタデータ) (2023-05-19T10:43:57Z) - SeCo: Separating Unknown Musical Visual Sounds with Consistency Guidance [88.0355290619761]
この作品は未知の楽器の分離に焦点を当てている。
本稿では,未知のカテゴリを分離できるセコ(SeCo)フレームワークを提案する。
本手法は,新たな楽曲カテゴリに適応する能力を示し,基本手法を顕著なマージンで上回る性能を示す。
論文 参考訳(メタデータ) (2022-03-25T09:42:11Z) - A Perceptual Measure for Evaluating the Resynthesis of Automatic Music
Transcriptions [10.957528713294874]
本研究では,室内音響や楽器などの環境要因が変化した場合の演奏の知覚に焦点を当てた。
我々は「演出」の概念と「芸術的意図」を表現する「解釈」の概念を区別することを提案する。
論文 参考訳(メタデータ) (2022-02-24T18:09:22Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。