論文の概要: Learning Normal Patterns in Musical Loops
- arxiv url: http://arxiv.org/abs/2505.23784v1
- Date: Thu, 22 May 2025 19:52:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-08 12:40:08.58931
- Title: Learning Normal Patterns in Musical Loops
- Title(参考訳): 音楽ループにおける正規パターンの学習
- Authors: Shayan Dadman, Bernt Arild Bremdal, Børre Bang, Rune Dalmo,
- Abstract要約: 本稿では,音楽サンプル(ループ)の音響パターンを異常検出により検出するための教師なしフレームワークを提案する。
深部特徴抽出と教師なし異常検出を組み合わせたアーキテクチャにより,これらの制約に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces an unsupervised framework for detecting audio patterns in musical samples (loops) through anomaly detection techniques, addressing challenges in music information retrieval (MIR). Existing methods are often constrained by reliance on handcrafted features, domain-specific limitations, or dependence on iterative user interaction. We address these limitations through an architecture combining deep feature extraction with unsupervised anomaly detection. Our approach leverages a pre-trained Hierarchical Token-semantic Audio Transformer (HTS-AT), paired with a Feature Fusion Mechanism (FFM), to generate representations from variable-length audio loops. These embeddings are processed using one-class Deep Support Vector Data Description (Deep SVDD), which learns normative audio patterns by mapping them to a compact latent hypersphere. Evaluations on curated bass and guitar datasets compare standard and residual autoencoder variants against baselines like Isolation Forest (IF) and and principle component analysis (PCA) methods. Results show our Deep SVDD models, especially the residual autoencoder variant, deliver improved anomaly separation, particularly for larger variations. This research contributes a flexible, fully unsupervised solution for processing diverse audio samples, overcoming previous structural and input limitations while enabling effective pattern identification through distance-based latent space scoring.
- Abstract(参考訳): 本稿では,音楽サンプル(ループ)の音響パターンを異常検出技術を用いて検出するための教師なしフレームワークについて紹介し,音楽情報検索(MIR)における課題に対処する。
既存の手法は、しばしば手作りの特徴、ドメイン固有の制限、反復的なユーザーインタラクションへの依存によって制約される。
深部特徴抽出と教師なし異常検出を組み合わせたアーキテクチャにより,これらの制約に対処する。
提案手法では,階層型音声変換器(HTS-AT)とFeature Fusion Mechanism(FFM)を併用し,可変長音声ループから表現を生成する。
これらの埋め込みは、一級のDeep Support Vector Data Description (ディープSVDD)を使用して処理され、コンパクトな潜在超球面にマッピングすることで規範的なオーディオパターンを学習する。
キュレートされたベースとギターのデータセットの評価は、標準および残留オートエンコーダの変種を分離フォレスト(IF)や原則成分分析(PCA)手法のようなベースラインと比較する。
結果より,Deep SVDDモデル,特に残余のオートエンコーダ変種は,特に大きな変動に対して,異常分離の改善をもたらすことがわかった。
本研究は,従来の構造的および入力的制約を克服しつつ,距離に基づく潜在空間スコアリングによる効果的なパターン識別を実現し,多様なオーディオサンプルを処理するための,柔軟な,完全に教師なしのソリューションを提供する。
関連論文リスト
- STOPA: A Database of Systematic VariaTion Of DeePfake Audio for Open-Set Source Tracing and Attribution [6.860131654491485]
STOPAは、13の合成器から8つのAM、6つの設定、700kサンプルをカバーするディープフェイク音声ソーストレースのためのデータセットである。
STOPAは、ボコーダモデル、音響モデル、事前訓練された重みの選択など、幅広い生成要因をカバーする体系的に制御されたフレームワークを提供する。
この制御により帰属精度が向上し、法医学的分析、ディープフェイク検出、生成モデルの透明性が向上する。
論文 参考訳(メタデータ) (2025-05-26T08:00:30Z) - TSLANet: Rethinking Transformers for Time Series Representation Learning [19.795353886621715]
時系列データは、その固有の長短の依存関係によって特徴づけられる。
本稿では,時系列タスクの普遍的畳み込みモデルとして,新しい時系列軽量ネットワーク(TSLANet)を導入する。
我々の実験では、TSLANetは分類、予測、異常検出にまたがる様々なタスクにおいて最先端のモデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-04-12T13:41:29Z) - Unraveling the "Anomaly" in Time Series Anomaly Detection: A
Self-supervised Tri-domain Solution [89.16750999704969]
異常ラベルは時系列異常検出において従来の教師付きモデルを妨げる。
自己教師型学習のような様々なSOTA深層学習技術がこの問題に対処するために導入されている。
自己教師型3領域異常検出器(TriAD)を提案する。
論文 参考訳(メタデータ) (2023-11-19T05:37:18Z) - Beyond the Benchmark: Detecting Diverse Anomalies in Videos [0.6993026261767287]
ビデオ異常検出(VAD)は、現代の監視システムにおいて重要な役割を担い、現実の状況における様々な異常を識別することを目的としている。
現在のベンチマークデータセットは、新しいオブジェクト検出のような単純な単一フレームの異常を主に強調している。
我々は,従来のベンチマーク境界を超える複雑な異常を包含するVAD調査の拡大を提唱する。
論文 参考訳(メタデータ) (2023-10-03T09:22:06Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Unsupervised Anomaly Detection with Adversarial Mirrored AutoEncoders [51.691585766702744]
本稿では,識別器のミラー化ワッサースタイン損失を利用して,よりセマンティックレベルの再構築を行う逆自動エンコーダの変種を提案する。
我々は,再建基準の代替として,異常スコアの代替尺度を提案した。
提案手法は,OOD検出ベンチマークにおける異常検出の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2020-03-24T08:26:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。