論文の概要: Supervised contrastive learning from weakly-labeled audio segments for musical version matching
- arxiv url: http://arxiv.org/abs/2502.16936v1
- Date: Mon, 24 Feb 2025 08:01:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:58:58.596203
- Title: Supervised contrastive learning from weakly-labeled audio segments for musical version matching
- Title(参考訳): 音楽バージョンマッチングのための弱ラベル音声セグメントからの教師付きコントラスト学習
- Authors: Joan Serrà, R. Oguz Araz, Dmitry Bogdanov, Yuki Mitsufuji,
- Abstract要約: 本稿では,弱い注釈付きセグメントから学習する手法を提案する。
これら2つの要素により、標準トラックレベル評価において最先端の結果を得るだけでなく、セグメントレベル評価においてブレークスルー性能を得る。
- 参考スコア(独自算出の注目度): 21.88094295569794
- License:
- Abstract: Detecting musical versions (different renditions of the same piece) is a challenging task with important applications. Because of the ground truth nature, existing approaches match musical versions at the track level (e.g., whole song). However, most applications require to match them at the segment level (e.g., 20s chunks). In addition, existing approaches resort to classification and triplet losses, disregarding more recent losses that could bring meaningful improvements. In this paper, we propose a method to learn from weakly annotated segments, together with a contrastive loss variant that outperforms well-studied alternatives. The former is based on pairwise segment distance reductions, while the latter modifies an existing loss following decoupling, hyper-parameter, and geometric considerations. With these two elements, we do not only achieve state-of-the-art results in the standard track-level evaluation, but we also obtain a breakthrough performance in a segment-level evaluation. We believe that, due to the generality of the challenges addressed here, the proposed methods may find utility in domains beyond audio or musical version matching.
- Abstract(参考訳): 音楽バージョン(同じ曲の異なる再帰)を検出することは、重要な応用において難しい課題である。
基礎的な真実の性質から、既存のアプローチはトラックレベル(例:全曲)の音楽バージョンと一致している。
しかし、ほとんどのアプリケーションはセグメントレベル(例:20sチャンク)でそれらをマッチングする必要がある。
さらに、既存のアプローチは分類と3倍の損失を頼りにしており、より最近の損失を無視することで有意義な改善をもたらす可能性がある。
本稿では,弱い注釈付きセグメントから学習する手法を提案する。
前者は対方向のセグメント距離の減少に基づいており、後者はデカップリング、ハイパーパラメータ、幾何学的考察による既存の損失を修正している。
これら2つの要素により、標準トラックレベル評価において最先端の結果を得るだけでなく、セグメントレベル評価においてブレークスルー性能を得る。
この課題の一般化により、提案手法は、オーディオや音楽バージョンマッチング以外の領域で有用性を見出すことができると我々は考えている。
関連論文リスト
- Partitioned Saliency Ranking with Dense Pyramid Transformers [4.449304130658638]
サリエンシランキングは、インスタンスレベルのサリエンシの度合いを評価することに焦点を当てた、挑戦的なタスクとして登場した。
従来のアプローチでは、固有の曖昧さを明示的に解決していない有能なインスタンスのランクスコアを直接ソートすることで、サリエンシのランク付けを行っている。
本稿では,非順序の有意なインスタンスをパーティションに分割し,それらのパーティション間の相関に基づいてランク付けするパーティション・バイ・パーティション・パラダイムを提案する。
論文 参考訳(メタデータ) (2023-08-01T02:33:10Z) - Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。
本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。
無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文 参考訳(メタデータ) (2023-03-21T07:00:35Z) - Generalized Few-Shot Semantic Segmentation: All You Need is Fine-Tuning [35.51193811629467]
一般化された少数ショットセマンティックセマンティックセマンティクスは、新規クラスの少数ショットセマンティクスモデルのみを評価することを超えて導入された。
現在、すべてのアプローチはメタラーニングに基づいていますが、わずか数枚のショットを観察した後、学習が不十分で飽和しています。
提案手法は,2つのデータセットに対して最先端の処理結果を達成しつつ,飽和問題に対処できることを実証するものである。
論文 参考訳(メタデータ) (2021-12-21T04:44:57Z) - Unsupervised Learning of Deep Features for Music Segmentation [8.528384027684192]
音楽セグメンテーション(英: Music segmentation)は、音楽セグメンテーションの境界を識別し、ラベル付けする問題である。
様々な楽曲セグメンテーションアルゴリズムの性能は、音声を表現するために選択された音声機能に依存している。
本研究では,畳み込みニューラルネットワーク(CNN)を用いたディープ・フィーチャー・埋め込みの教師なしトレーニングを音楽セグメンテーションのために検討した。
論文 参考訳(メタデータ) (2021-08-30T01:55:44Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - A Weakly-Supervised Semantic Segmentation Approach based on the Centroid
Loss: Application to Quality Control and Inspection [6.101839518775968]
本稿では,新しい損失関数を用いた弱教師付きセマンティックセマンティックセマンティクス手法の提案と評価を行う。
アプローチのパフォーマンスは,2つの業界関連ケーススタディのデータセットに対して評価される。
論文 参考訳(メタデータ) (2020-10-26T09:08:21Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z) - Multi-scale Interactive Network for Salient Object Detection [91.43066633305662]
本稿では,隣接レベルからの機能を統合するためのアグリゲート・インタラクション・モジュールを提案する。
より効率的なマルチスケール機能を得るために、各デコーダユニットに自己相互作用モジュールを埋め込む。
5つのベンチマークデータセットによる実験結果から,提案手法は後処理を一切行わず,23の最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2020-07-17T15:41:37Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z) - Equalization Loss for Long-Tailed Object Recognition [109.91045951333835]
最先端のオブジェクト検出手法は、大きな語彙と長い尾を持つデータセットでは依然として不十分である。
そこで本稿では,長期的希少なカテゴリーの課題に対処するために,同化損失という,シンプルだが効果的な損失を提案する。
LVISベンチマークでは,レアおよび共通カテゴリのAP利得が4.1%,レアおよび共通カテゴリが4.8%である。
論文 参考訳(メタデータ) (2020-03-11T09:14:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。