論文の概要: Unsupervised Evaluation of Deep Audio Embeddings for Music Structure Analysis
- arxiv url: http://arxiv.org/abs/2603.27218v1
- Date: Sat, 28 Mar 2026 10:18:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.850675
- Title: Unsupervised Evaluation of Deep Audio Embeddings for Music Structure Analysis
- Title(参考訳): 音楽構造解析のためのディープオーディオ埋め込みの教師なし評価
- Authors: Axel Marmoret,
- Abstract要約: 音楽構造分析(MSA)は、高いレベルの楽曲組織を明らかにすることを目的としている。
そこで本研究では,MSAによる9つのオープンソース,汎用的な事前学習型ディープオーディオモデルの教師なし評価を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Music Structure Analysis (MSA) aims to uncover the high-level organization of musical pieces. State-of-the-art methods are often based on supervised deep learning, but these methods are bottlenecked by the need for heavily annotated data and inherent structural ambiguities. In this paper, we propose an unsupervised evaluation of nine open-source, generic pre-trained deep audio models, on MSA. For each model, we extract barwise embeddings and segment them using three unsupervised segmentation algorithms (Foote's checkerboard kernels, spectral clustering, and Correlation Block-Matching (CBM)), focusing exclusively on boundary retrieval. Our results demonstrate that modern, generic deep embeddings generally outperform traditional spectrogram-based baselines, but not systematically. Furthermore, our unsupervised boundary estimation methodology generally yields stronger performance than recent linear probing baselines. Among the evaluated techniques, the CBM algorithm consistently emerges as the most effective downstream segmentation method. Finally, we highlight the artificial inflation of standard evaluation metrics and advocate for the systematic adoption of ``trimming'', or even ``double trimming'' annotations to establish more rigorous MSA evaluation standards.
- Abstract(参考訳): 音楽構造分析(MSA)は、高いレベルの楽曲組織を明らかにすることを目的としている。
最先端の手法は、しばしば教師付き深層学習に基づくが、これらの手法は、大量の注釈付きデータと固有の構造的曖昧さの必要性によってボトルネックとなる。
本稿では,MSAを用いた9つのオープンソース,汎用的な事前学習型ディープオーディオモデルの教師なし評価を提案する。
各モデルに対してバルワイズ埋め込みを抽出し、3つの教師なしセグメンテーションアルゴリズム(フートのチェッカーボードカーネル、スペクトルクラスタリング、相関ブロックマッチング(CBM))を用いて分割する。
以上の結果から,近代的な総合的な深層埋め込みは従来の分光法に基づくベースラインよりも優れているが,体系的ではないことが示唆された。
さらに、教師なし境界推定手法は、一般に、最近の線形探索ベースラインよりも強い性能が得られる。
評価手法のうち、CBMアルゴリズムは最も効果的な下流分割法として一貫して現れる。
最後に、標準評価指標の人工的なインフレーションを強調し、より厳格なMSA評価基準を確立するために「トリミング」や「ダブルトリミング」アノテーションの体系的導入を提唱する。
関連論文リスト
- Generalizing Abstention for Noise-Robust Learning in Medical Image Segmentation [2.597921446818458]
禁制機構はクロスエントロピーの能力を高めることによって分類タスクに有効であることが証明されている。
本稿では,多種多様な損失関数のノイズ・ロバスト性を向上させる,普遍的かつモジュラーな禁忌フレームワークを提案する。
本フレームワークは, 抑止動作を誘導する情報正規化項と, 抑止ペナルティのためのより柔軟な省力性に基づく自動チューニングアルゴリズムの2つの重要なコンポーネントによる事前作業を改善する。
論文 参考訳(メタデータ) (2026-01-20T14:57:56Z) - EReLiFM: Evidential Reliability-Aware Residual Flow Meta-Learning for Open-Set Domain Generalization under Noisy Labels [85.78886153628663]
Open-Set Domain Generalizationは、ディープラーニングモデルが新しいドメインで目に見えないカテゴリを認識できるようにすることを目的としている。
ラベルノイズは、ソースドメインの知識を損なうことによって、オープンセットドメインの一般化を妨げる。
本稿では,ドメインギャップを埋めるために,Evidential Reliability-Aware Residual Flow Meta-Learning (EReLiFM)を提案する。
論文 参考訳(メタデータ) (2025-10-14T16:23:11Z) - Instance-Aware Robust Consistency Regularization for Semi-Supervised Nuclei Instance Segmentation [53.94176748542936]
本稿では、インスタンスレベルの正確な核分割のためのインスタンス対応ロバスト整合性正規化ネットワーク(IRCR-Net)を提案する。
病理画像に核形態学的な先行知識を取り入れ,これらの先行知識を用いてラベルのないデータから生成された擬似ラベルの品質を評価する。
論文 参考訳(メタデータ) (2025-10-10T12:32:32Z) - Rethinking Metrics and Benchmarks of Video Anomaly Detection [58.37571339811799]
ビデオ異常検出(VAD)は、期待から外れた異常を検出することを目的としている。
既存のVADメトリクスは、単一のアノテーションバイアスの影響を受けます。
既存のベンチマークには、完全に/弱い教師付きアルゴリズムのシーンオーバーフィットを評価する能力がない。
論文 参考訳(メタデータ) (2025-05-25T08:09:42Z) - CSAD: Unsupervised Component Segmentation for Logical Anomaly Detection [10.716585855033347]
我々は,人間のラベル付けを伴わない軽量セグメンテーションネットワークのためのトレーニングラベルを生成する,教師なしコンポーネントセグメンテーション手法を開発した。
我々は,従来のSOTA法を超越したMVTec LOCO ADデータセットにおいて,95.3%のAUROC検出を実現する。
論文 参考訳(メタデータ) (2024-08-28T08:27:41Z) - Unifying Unsupervised Graph-Level Anomaly Detection and Out-of-Distribution Detection: A Benchmark [73.58840254552656]
近年,非教師付きグラフレベルの異常検出(GLAD)と教師なしグラフレベルのアウト・オブ・ディストリビューション(OOD)検出が注目されている。
教師なしアンダーラインtextbfGraphレベルアンダーラインtextbfOOD と anomaunderlinetextbfLy underlinetextbfDetection (ourmethod) に対するアンダーラインtextbfUnifiedアンダーラインtextbffBenchmark を提案する。
私たちのベンチマークには35のデータセットが含まれています
論文 参考訳(メタデータ) (2024-06-21T04:07:43Z) - Revisiting 3D Medical Scribble Supervision: Benchmarking Beyond Cardiac Segmentation [1.2238508261277228]
医用3Dセグメンテーションにおけるアノテーションコストの削減に期待できるアプローチとして,スクリブル・インスペクションが登場した。
本研究は,医用画像セグメンテーションのための,より実用的で堅牢で汎用的な手法を指向したスクリブル・インスペクションの実現を目的とする。
論文 参考訳(メタデータ) (2024-03-19T15:41:16Z) - On Leave-One-Out Conditional Mutual Information For Generalization [122.2734338600665]
残余条件付き相互情報(loo-CMI)の新しい尺度に基づく教師付き学習アルゴリズムのための情報理論の一般化境界を導出する。
他のCMI境界とは対照的に、我々のloo-CMI境界は容易に計算でき、古典的なout-out-out-cross-validationのような他の概念と関連して解釈できる。
ディープラーニングのシナリオにおいて予測された一般化ギャップを評価することにより,境界の質を実証的に検証する。
論文 参考訳(メタデータ) (2022-07-01T17:58:29Z) - Unsupervised learning of disentangled representations in deep restricted
kernel machines with orthogonality constraints [15.296955630621566]
Constr-DRKMは、非教師なしデータ表現の学習のためのディープカーネル手法である。
本研究では,不整合特徴学習における提案手法の有効性を定量的に評価する。
論文 参考訳(メタデータ) (2020-11-25T11:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。