論文の概要: ChordFormer: A Conformer-Based Architecture for Large-Vocabulary Audio Chord Recognition
- arxiv url: http://arxiv.org/abs/2502.11840v1
- Date: Mon, 17 Feb 2025 14:35:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:17:19.629701
- Title: ChordFormer: A Conformer-Based Architecture for Large-Vocabulary Audio Chord Recognition
- Title(参考訳): ChordFormer:大語彙音声コード認識のためのコンバータベースアーキテクチャ
- Authors: Muhammad Waseem Akram, Stefano Dettori, Valentina Colla, Giorgio Carlo Buttazzo,
- Abstract要約: 和音認識は、音楽分析における和音の記述的性質により、音楽情報検索において重要な課題となる。
この研究は、大きな語彙に対する構造的コード認識(トリアード、ベース、セブンズなど)に取り組むために設計された、新しいコンバータベースのアーキテクチャであるChordFormerを提案する。
ChordFormerは最先端モデルより優れており、フレームワイドの精度が2%向上し、大語彙のコードデータセットではクラスワイドの精度が6%向上している。
- 参考スコア(独自算出の注目度): 1.2187048691454239
- License:
- Abstract: Chord recognition serves as a critical task in music information retrieval due to the abstract and descriptive nature of chords in music analysis. While audio chord recognition systems have achieved significant accuracy for small vocabularies (e.g., major/minor chords), large-vocabulary chord recognition remains a challenging problem. This complexity also arises from the inherent long-tail distribution of chords, where rare chord types are underrepresented in most datasets, leading to insufficient training samples. Effective chord recognition requires leveraging contextual information from audio sequences, yet existing models, such as combinations of convolutional neural networks, bidirectional long short-term memory networks, and bidirectional transformers, face limitations in capturing long-term dependencies and exhibit suboptimal performance on large-vocabulary chord recognition tasks. This work proposes ChordFormer, a novel conformer-based architecture designed to tackle structural chord recognition (e.g., triads, bass, sevenths) for large vocabularies. ChordFormer leverages conformer blocks that integrate convolutional neural networks with transformers, thus enabling the model to capture both local patterns and global dependencies effectively. By addressing challenges such as class imbalance through a reweighted loss function and structured chord representations, ChordFormer outperforms state-of-the-art models, achieving a 2% improvement in frame-wise accuracy and a 6% increase in class-wise accuracy on large-vocabulary chord datasets. Furthermore, ChordFormer excels in handling class imbalance, providing robust and balanced recognition across chord types. This approach bridges the gap between theoretical music knowledge and practical applications, advancing the field of large-vocabulary chord recognition.
- Abstract(参考訳): 和音認識は、音楽分析における和音の抽象的・記述的性質から、音楽情報検索において重要な課題となる。
音声コード認識システムは小語彙(例えば、メジャー/マイナーコード)の精度は高いが、大語彙コード認識は依然として難しい問題である。
この複雑さは、ほとんどのデータセットでは希少なコードタイプが不足しており、訓練サンプルが不十分であるコード固有の長尾分布からも生じる。
効果的なコード認識には、音声シーケンスからのコンテキスト情報を活用する必要があるが、畳み込みニューラルネットワーク、双方向の長期メモリネットワーク、双方向トランスフォーマーの組み合わせのような既存のモデルでは、長期的な依存関係をキャプチャする際の制限に直面し、大語彙のコード認識タスクに最適なパフォーマンスを示す必要がある。
この研究はChordFormerを提案する。ChordFormerは、大きな語彙に対する構造的コード認識(例えば、三つ組、ベース、セブンス)に取り組むために設計された、新しいコンバータベースのアーキテクチャである。
ChordFormerは、畳み込みニューラルネットワークとトランスフォーマーを統合するコンフォーマーブロックを活用し、モデルがローカルパターンとグローバル依存関係の両方を効果的にキャプチャすることを可能にする。
再重み付き損失関数や構造化コード表現によるクラス不均衡などの課題に対処することで、CordFormerは最先端のモデルよりも優れ、フレームワイドの精度が2%向上し、大語彙のコードデータセットではクラスワイドの精度が6%向上した。
さらに、ChordFormerはクラス不均衡の処理に優れ、コードタイプ間で堅牢でバランスの取れた認識を提供する。
このアプローチは理論音楽知識と実践的応用のギャップを埋め、大語彙コード認識の分野を前進させる。
関連論文リスト
- CHORDONOMICON: A Dataset of 666,000 Songs and their Chord Progressions [1.8541450825478398]
Chordonomiconは666,000曲以上の楽曲とそれらのコード進行のデータセットで、構造的部分、ジャンル、リリース日が注釈付けされている。
これらの特徴により、Chordonomiconは高度な機械学習技術を探求するための理想的なテストベッドとなる。
論文 参考訳(メタデータ) (2024-10-29T13:53:09Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Cadence Detection in Symbolic Classical Music using Graph Neural
Networks [7.817685358710508]
本稿では,シンボルスコアのグラフ表現を中間的手段として提示し,ケイデンス検出課題を解決する。
グラフ畳み込みネットワークを用いた不均衡ノード分類問題としてケイデンス検出にアプローチする。
実験の結果,グラフ畳み込みは,非局所的コンテキストを符号化する特殊な特徴を考案する必要がなく,ケイデンス検出を支援する非局所的特徴を学習できることが示唆された。
論文 参考訳(メタデータ) (2022-08-31T12:39:57Z) - Deep Neural Convolutive Matrix Factorization for Articulatory
Representation Decomposition [48.56414496900755]
この研究は、コンボリューティブスパース行列分解のニューラル実装を用いて、調音データを解釈可能なジェスチャーとジェスチャースコアに分解する。
音素認識実験も実施され、ジェスチャースコアが実際に音韻情報のコード化に成功していることが示された。
論文 参考訳(メタデータ) (2022-04-01T14:25:19Z) - Learning Decoupling Features Through Orthogonality Regularization [55.79910376189138]
音声認識におけるキースポッティング(KWS)と話者検証(SV)は2つの重要なタスクである。
我々は,同じネットワーク構造を持つ2分岐のディープネットワーク(KWSブランチとSVブランチ)を開発する。
KWS と SV のパフォーマンスを同時に向上させるために,新しいデカップリング特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-03-31T03:18:13Z) - Multi-Dialect Arabic Speech Recognition [0.0]
本稿では,アラビア語に対する多言語自動音声認識の設計と開発について述べる。
ディープニューラルネットワークは、シーケンシャルなデータ問題を解決する効果的なツールになりつつある。
提案方式は14%の誤差率を達成し, 従来のシステムより優れていた。
論文 参考訳(メタデータ) (2021-12-25T20:55:57Z) - Speech Command Recognition in Computationally Constrained Environments
with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。
この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。
このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-11-23T14:40:18Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。