論文の概要: Music Auto-Tagging with Robust Music Representation Learned via Domain
Adversarial Training
- arxiv url: http://arxiv.org/abs/2401.15323v1
- Date: Sat, 27 Jan 2024 06:56:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 18:52:38.248704
- Title: Music Auto-Tagging with Robust Music Representation Learned via Domain
Adversarial Training
- Title(参考訳): ドメイン反転学習によるロバストな音楽表現による自動タグ付け
- Authors: Haesun Joung, Kyogu Lee
- Abstract要約: 音楽情報検索(MIR)の既存のモデルは、マルチメディアコンテンツにおける環境や音声などの現実的なノイズに苦しむ。
本研究では,音声関連タスクにインスパイアされた,ノイズの多い環境下での音楽の自動タグ付け性能を向上させる手法を提案する。
- 参考スコア(独自算出の注目度): 18.71152526968065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music auto-tagging is crucial for enhancing music discovery and
recommendation. Existing models in Music Information Retrieval (MIR) struggle
with real-world noise such as environmental and speech sounds in multimedia
content. This study proposes a method inspired by speech-related tasks to
enhance music auto-tagging performance in noisy settings. The approach
integrates Domain Adversarial Training (DAT) into the music domain, enabling
robust music representations that withstand noise. Unlike previous research,
this approach involves an additional pretraining phase for the domain
classifier, to avoid performance degradation in the subsequent phase. Adding
various synthesized noisy music data improves the model's generalization across
different noise levels. The proposed architecture demonstrates enhanced
performance in music auto-tagging by effectively utilizing unlabeled noisy
music data. Additional experiments with supplementary unlabeled data further
improves the model's performance, underscoring its robust generalization
capabilities and broad applicability.
- Abstract(参考訳): 音楽の自動タグ付けは、音楽発見とレコメンデーションの強化に不可欠である。
音楽情報検索(MIR)の既存のモデルは、マルチメディアコンテンツにおける環境や音声などの現実的なノイズに苦しむ。
本研究では,雑音環境における音楽の自動タグ付け性能を向上させるために,音声関連課題に触発された手法を提案する。
このアプローチは、DAT(Domain Adversarial Training)を音楽領域に統合し、ノイズに耐える堅牢な音楽表現を可能にする。
従来の研究とは異なり、このアプローチは、その後のフェーズのパフォーマンス劣化を避けるために、ドメイン分類器のための追加の事前訓練フェーズを含む。
様々な合成ノイズ音楽データを追加することで、異なるノイズレベルにわたるモデルの一般化が向上する。
提案アーキテクチャは,未ラベルの音楽データを活用することで,音楽の自動タグ付けの性能向上を示す。
追加のラベルなしデータによる追加実験は、モデルの性能をさらに改善し、その堅牢な一般化能力と幅広い適用性を強調している。
関連論文リスト
- MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。
本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。
音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-06-07T06:38:59Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [73.47607237309258]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - On the Effect of Data-Augmentation on Local Embedding Properties in the
Contrastive Learning of Music Audio Representations [6.255143207183722]
トラック内の同質な音楽特性は、結果として生じる埋め込み空間内の近傍の局所性に反映されることを示す。
音楽オーディオの埋め込みのコントラスト学習におけるデータ拡張戦略の最適選択は、下流タスクに依存していることを示す。
論文 参考訳(メタデータ) (2024-01-17T00:12:13Z) - Exploiting Time-Frequency Conformers for Music Audio Enhancement [21.243039524049614]
コンフォーマーアーキテクチャに基づく音楽強調システムを提案する。
提案手法はコンフォーマーの注意機構を探索し,その性能を検証し,音楽強調作業における最善のアプローチを見出す。
論文 参考訳(メタデータ) (2023-08-24T06:56:54Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Multi-task Learning with Metadata for Music Mood Classification [0.0]
ムード認識は音楽情報学において重要な問題であり、音楽発見とレコメンデーションに重要な応用がある。
マルチタスク学習手法を提案する。この手法では、共有されたモデルが、気分やメタデータの予測タスクに対して同時に訓練される。
我々の手法を既存の最先端の畳み込みニューラルネットワークに適用することにより、その性能を継続的に改善する。
論文 参考訳(メタデータ) (2021-10-10T11:36:34Z) - MusCaps: Generating Captions for Music Audio [14.335950077921435]
時間的注目のエンコーダデコーダで構成された最初の音楽オーディオキャプションモデルであるMusCapsを紹介します。
本手法は畳み込み型ニューラルネットワークアーキテクチャと繰り返し型ニューラルネットワークアーキテクチャを組み合わせて,音声テキスト入力を共同処理する。
我々のモデルは、分類に基づく音楽記述から脱却し、聴覚と言語の両方の理解を必要とするタスクを組み合わせている。
論文 参考訳(メタデータ) (2021-04-24T16:34:47Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z) - Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。
第1回音楽Adversarial Autoencoder(MusAE)について紹介する。
我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文 参考訳(メタデータ) (2020-01-15T18:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。