Fugu-MT 論文翻訳(概要): Automatic Identification of Samples in Hip-Hop Music via Multi-Loss Training and an Artificial Dataset

論文の概要: Automatic Identification of Samples in Hip-Hop Music via Multi-Loss Training and an Artificial Dataset

arxiv url: http://arxiv.org/abs/2502.06364v1
Date: Mon, 10 Feb 2025 11:30:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 18:57:51.095552
Title: Automatic Identification of Samples in Hip-Hop Music via Multi-Loss Training and an Artificial Dataset
Title（参考訳）: マルチロストレーニングと人工データセットによるヒップホップ音楽のサンプルの自動識別
Authors: Huw Cheston, Jan Van Balen, Simon Durand,
Abstract要約: 人工データセットでトレーニングされた畳み込みニューラルネットワークは、商用ヒップホップ音楽の実際のサンプルを識別できることを示す。共同分類とメートル法学習損失を用いてモデルを最適化し,実世界のサンプリングの精度を13%向上することを示す。
参考スコア（独自算出の注目度）: 0.29998889086656577
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Sampling, the practice of reusing recorded music or sounds from another source in a new work, is common in popular music genres like hip-hop and rap. Numerous services have emerged that allow users to identify connections between samples and the songs that incorporate them, with the goal of enhancing music discovery. Designing a system that can perform the same task automatically is challenging, as samples are commonly altered with audio effects like pitch- and time-stretching and may only be seconds long. Progress on this task has been minimal and is further blocked by the limited availability of training data. Here, we show that a convolutional neural network trained on an artificial dataset can identify real-world samples in commercial hip-hop music. We extract vocal, harmonic, and percussive elements from several databases of non-commercial music recordings using audio source separation, and train the model to fingerprint a subset of these elements in transformed versions of the original audio. We optimize the model using a joint classification and metric learning loss and show that it achieves 13% greater precision on real-world instances of sampling than a fingerprinting system using acoustic landmarks, and that it can recognize samples that have been both pitch shifted and time stretched. We also show that, for half of the commercial music recordings we tested, our model is capable of locating the position of a sample to within five seconds.
Abstract（参考訳）: サンプリング(英: Sampling)とは、ヒップホップやラップといったポピュラー音楽のジャンルで一般的である。ユーザがサンプルとそれらを組み込んだ曲の接続を識別し、音楽発見の強化を目標とするサービスが多数出現している。同じタスクを自動で実行できるシステムの設計は、サンプルがピッチやタイムストレッチといったオーディオ効果で通常変更されるため、数秒しか持たないため、難しい。このタスクの進捗は最小限であり、トレーニングデータの限られた可用性によってさらにブロックされている。ここでは、人工データセットでトレーニングされた畳み込みニューラルネットワークが、商用ヒップホップ音楽の実際のサンプルを識別可能であることを示す。我々は、音源分離を用いて、複数の非商業音楽録音データベースから発声、ハーモニック、パーカッシブ要素を抽出し、元のオーディオの変換版でこれらの要素のサブセットをフィンガープリントするようにモデルを訓練する。共同分類とメートル法学習損失を用いてモデルを最適化し、音響的ランドマークを用いた指紋認証システムよりも実世界のサンプリングの精度が13%向上し、ピッチシフトと時間延長の両方のサンプルを認識可能であることを示す。また、テストした商用音楽録音の半分については、サンプルの位置を5秒以内で特定できることも示しています。

関連論文リスト

Music Boomerang: Reusing Diffusion Models for Data Augmentation and Audio Manipulation [49.062766449989525]
音楽オーディオの生成モデルは、典型的にはテキストプロンプトやメロディのみに基づいて出力を生成するために使用される。画像領域に対して最近提案されたブーメランサンプリングでは,任意の事前学習拡散モデルを用いて,既存の例に近い出力を生成することができる。
論文参考訳（メタデータ） (2025-07-07T10:46:07Z)
Refining music sample identification with a self-supervised graph neural network [16.73613870989583]
本稿では,グラフニューラルネットワークを用いた軽量でスケーラブルな符号化アーキテクチャを提案する。我々のモデルは、現在の最先端システムと比較してトレーニング可能なパラメータの9%しか使用せず、平均平均精度(mAP)は44.2%に達している。さらに,実世界のアプリケーションにおけるクエリは時間的に短い場合が多いため,Sample100データセットに対する新たな詳細なアノテーションを用いて,短いクエリをベンチマークする。
論文参考訳（メタデータ） (2025-06-17T16:19:21Z)
Controllable Music Production with Diffusion Models and Guidance Gradients [3.187381965457262]
44.1kHzステレオオーディオにおいて,拡散モデルから条件付き生成を用いて,様々な現実的なタスクに対処する方法を実証する。このシナリオには、継続性、音楽オーディオのインペイントと再生、2つの異なる音楽トラック間のスムーズな遷移の生成、既存のオーディオクリップへの所望のスタイル特性の転送などが含まれる。
論文参考訳（メタデータ） (2023-11-01T16:01:01Z)
Self-Supervised Contrastive Learning for Robust Audio-Sheet Music Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文参考訳（メタデータ） (2023-09-21T14:54:48Z)
Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文参考訳（メタデータ） (2023-07-27T17:59:59Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
Anomalous Sound Detection using Audio Representation with Machine ID based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2023-04-07T11:08:31Z)
Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文参考訳（メタデータ） (2022-11-21T07:19:17Z)
Comparision Of Adversarial And Non-Adversarial LSTM Music Generative Models [2.569647910019739]
この研究は、MIDIデータに基づいて、リカレントニューラルネットワーク音楽作曲家の敵対的および非敵対的な訓練を実装し、比較する。この評価は, 対人訓練がより審美的に楽しむ音楽を生み出すことを示唆している。
論文参考訳（メタデータ） (2022-11-01T20:23:49Z)
Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文参考訳（メタデータ） (2022-04-01T17:53:39Z)
Collaborative Learning to Generate Audio-Video Jointly [39.193054126350496]
そこで本研究では,音声と映像の関連付けにより,映像と音声の自然なサンプルを生成する手法を提案する。提案手法では,複数の識別器を用いて,実世界のサンプルと音声,ビデオ,共同出力が区別できないことを保証する。
論文参考訳（メタデータ） (2021-04-01T01:00:51Z)
Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文参考訳（メタデータ） (2020-08-06T18:29:11Z)
Learning to Denoise Historical Music [30.165194151843835]
そこで我々は,古い録音を聴くことを学習する音声から音声へのニューラルネットモデルを提案する。ネットワークは、ノイズの多い音楽データセット上で、再構成と敵の目的の両方で訓練される。提案手法は,原曲の品質と詳細を保存しながら,ノイズ除去に有効であることを示す。
論文参考訳（メタデータ） (2020-08-05T10:05:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。