論文の概要: On the Effect of Data-Augmentation on Local Embedding Properties in the
Contrastive Learning of Music Audio Representations
- arxiv url: http://arxiv.org/abs/2401.08889v1
- Date: Wed, 17 Jan 2024 00:12:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 17:23:51.961975
- Title: On the Effect of Data-Augmentation on Local Embedding Properties in the
Contrastive Learning of Music Audio Representations
- Title(参考訳): 音楽音声表現のコントラスト学習における局所埋め込み特性に対するデータ提示の影響について
- Authors: Matthew C. McCallum, Matthew E. P. Davies, Florian Henkel, Jaehun Kim,
Samuel E. Sandberg
- Abstract要約: トラック内の同質な音楽特性は、結果として生じる埋め込み空間内の近傍の局所性に反映されることを示す。
音楽オーディオの埋め込みのコントラスト学習におけるデータ拡張戦略の最適選択は、下流タスクに依存していることを示す。
- 参考スコア(独自算出の注目度): 6.255143207183722
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio embeddings are crucial tools in understanding large catalogs of music.
Typically embeddings are evaluated on the basis of the performance they provide
in a wide range of downstream tasks, however few studies have investigated the
local properties of the embedding spaces themselves which are important in
nearest neighbor algorithms, commonly used in music search and recommendation.
In this work we show that when learning audio representations on music datasets
via contrastive learning, musical properties that are typically homogeneous
within a track (e.g., key and tempo) are reflected in the locality of
neighborhoods in the resulting embedding space. By applying appropriate data
augmentation strategies, localisation of such properties can not only be
reduced but the localisation of other attributes is increased. For example,
locality of features such as pitch and tempo that are less relevant to
non-expert listeners, may be mitigated while improving the locality of more
salient features such as genre and mood, achieving state-of-the-art performance
in nearest neighbor retrieval accuracy. Similarly, we show that the optimal
selection of data augmentation strategies for contrastive learning of music
audio embeddings is dependent on the downstream task, highlighting this as an
important embedding design decision.
- Abstract(参考訳): オーディオ埋め込みは、音楽の大きなカタログを理解する上で重要なツールである。
通常、埋め込みは幅広い下流タスクで提供される性能に基づいて評価されるが、音楽検索やレコメンデーションで一般的に用いられる隣り合うアルゴリズムにおいて重要な埋め込み空間自体の局所的特性について研究する研究はほとんどない。
本研究では、コントラスト学習による音楽データセットの音声表現の学習において、トラック内で典型的に均質な音楽特性(例えば、キーとテンポ)が埋め込み空間内の近傍の局所性に反映されることを示す。
適切なデータ拡張戦略を適用することで、そのようなプロパティのローカライズを削減できるだけでなく、他の属性のローカライズも向上する。
例えば、非熟練のリスナーにはあまり関係のないピッチやテンポといった特徴の局所性は、ジャンルやムードといったよりサルエントな特徴の局所性を改善しつつ緩和され、最も近い近隣の検索精度で最先端のパフォーマンスを達成することができる。
同様に,音楽音声組込みのコントラスト学習におけるデータ拡張戦略の最適選択は,下流課題に依存しており,これを重要な組込み設計決定として強調する。
関連論文リスト
- Music Auto-Tagging with Robust Music Representation Learned via Domain
Adversarial Training [18.71152526968065]
音楽情報検索(MIR)の既存のモデルは、マルチメディアコンテンツにおける環境や音声などの現実的なノイズに苦しむ。
本研究では,音声関連タスクにインスパイアされた,ノイズの多い環境下での音楽の自動タグ付け性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-01-27T06:56:51Z) - Perceptual Musical Features for Interpretable Audio Tagging [2.1730712607705485]
本研究では,音楽の自動タグ付けにおける解釈可能性の関連性について検討する。
3つの異なる情報抽出手法を組み込んだワークフローを構築した。
MTG-JamendoデータセットとGTZANデータセットの2つのデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-12-18T14:31:58Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - Representation Learning for the Automatic Indexing of Sound Effects
Libraries [79.68916470119743]
タスク固有のがデータセットに依存しない表現は、クラス不均衡、一貫性のないクラスラベル、不十分なデータセットサイズなどのデータ問題にうまく対処できることを示す。
詳細な実験結果は、メトリック学習アプローチと異なるデータセット間の学習方法が表現効率に与える影響を示している。
論文 参考訳(メタデータ) (2022-08-18T23:46:13Z) - Multi-task Learning with Metadata for Music Mood Classification [0.0]
ムード認識は音楽情報学において重要な問題であり、音楽発見とレコメンデーションに重要な応用がある。
マルチタスク学習手法を提案する。この手法では、共有されたモデルが、気分やメタデータの予測タスクに対して同時に訓練される。
我々の手法を既存の最先端の畳み込みニューラルネットワークに適用することにより、その性能を継続的に改善する。
論文 参考訳(メタデータ) (2021-10-10T11:36:34Z) - Unsupervised Learning of Deep Features for Music Segmentation [8.528384027684192]
音楽セグメンテーション(英: Music segmentation)は、音楽セグメンテーションの境界を識別し、ラベル付けする問題である。
様々な楽曲セグメンテーションアルゴリズムの性能は、音声を表現するために選択された音声機能に依存している。
本研究では,畳み込みニューラルネットワーク(CNN)を用いたディープ・フィーチャー・埋め込みの教師なしトレーニングを音楽セグメンテーションのために検討した。
論文 参考訳(メタデータ) (2021-08-30T01:55:44Z) - dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。
これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。
データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文 参考訳(メタデータ) (2020-07-29T19:20:07Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。