論文の概要: COCOLA: Coherence-Oriented Contrastive Learning of Musical Audio Representations
- arxiv url: http://arxiv.org/abs/2404.16969v2
- Date: Mon, 29 Apr 2024 07:33:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 12:29:16.759957
- Title: COCOLA: Coherence-Oriented Contrastive Learning of Musical Audio Representations
- Title(参考訳): COCOLA:Coherence-Oriented Contrastive Learning of Musical Audio Representations
- Authors: Ruben Ciranni, Emilian Postolache, Giorgio Mariani, Michele Mancusi, Luca Cosmo, Emanuele Rodolà,
- Abstract要約: COCOLAは、サンプル間の調和的・リズム的コヒーレンスをキャプチャする、音響音響表現の対照的な学習方法である。
提案手法は,楽曲を構成する幹のレベルで動作し,伴奏生成作業における楽曲構成モデルの客観的評価を可能にする。
- 参考スコア(独自算出の注目度): 17.124189082882395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present COCOLA (Coherence-Oriented Contrastive Learning for Audio), a contrastive learning method for musical audio representations that captures the harmonic and rhythmic coherence between samples. Our method operates at the level of stems (or their combinations) composing music tracks and allows the objective evaluation of compositional models for music in the task of accompaniment generation. We also introduce a new baseline for compositional music generation called CompoNet, based on ControlNet, generalizing the tasks of MSDM, and quantify it against the latter using COCOLA. We release all models trained on public datasets containing separate stems (MUSDB18-HQ, MoisesDB, Slakh2100, and CocoChorales).
- Abstract(参考訳): サンプル間の調和的・リズム的コヒーレンスをキャプチャする音声表現のコントラスト学習手法であるCOCOLA(Coherence-Oriented Contrastive Learning for Audio)を提案する。
提案手法は,音楽トラックを構成する幹(あるいはそれらの組み合わせ)のレベルで動作し,伴奏生成作業における楽曲合成モデルの客観的評価を可能にする。
また,MSDMのタスクを一般化したControlNetに基づくCompoNetという楽曲生成のための新しいベースラインを導入し,COCOLAを用いて後者に対して定量化する。
MUSDB18-HQ、MoisesDB、Slakh2100、CocoChorales)を含むパブリックデータセットでトレーニングされたすべてのモデルをリリースします。
関連論文リスト
- Automatic Estimation of Singing Voice Musical Dynamics [9.343063100314687]
本稿では,データセットキュレーションの方法論を提案する。
我々は163のスコアファイルと一致して509の楽曲のダイナミックスを歌声の演奏に注釈付けしたデータセットをコンパイルする。
我々は、様々なウィンドウサイズを持つCNNモデルを訓練し、音楽力学を推定するの有効性を評価する。
実験の結果,バークスケールによる音声力学予測は対数メル特徴よりも優れていた。
論文 参考訳(メタデータ) (2024-10-27T18:15:18Z) - Stem-JEPA: A Joint-Embedding Predictive Architecture for Musical Stem Compatibility Estimation [3.8570045844185237]
マルチトラックデータセットでトレーニングした新しいJEPA(Joint-Embedding Predictive Architecture)であるStem-JEPAを紹介する。
本モデルでは, エンコーダと予測器の2つのネットワークから構成される。
MUSDB18データセットの検索タスクにおいて、本モデルの性能を評価し、ミキシングから欠落した茎を見つける能力を検証した。
論文 参考訳(メタデータ) (2024-08-05T14:34:40Z) - Generating Sample-Based Musical Instruments Using Neural Audio Codec Language Models [2.3749120526936465]
サンプルベース楽器の自動生成のためのニューラルオーディオ言語モデルを提案する。
提案手法は,88キーのスペクトル,速度,テキスト/オーディオの埋め込みを併用した音声合成フレームワークを拡張した。
論文 参考訳(メタデータ) (2024-07-22T13:59:58Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - SeCo: Separating Unknown Musical Visual Sounds with Consistency Guidance [88.0355290619761]
この作品は未知の楽器の分離に焦点を当てている。
本稿では,未知のカテゴリを分離できるセコ(SeCo)フレームワークを提案する。
本手法は,新たな楽曲カテゴリに適応する能力を示し,基本手法を顕著なマージンで上回る性能を示す。
論文 参考訳(メタデータ) (2022-03-25T09:42:11Z) - Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。
本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。
当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-04-13T13:07:33Z) - Contrastive Learning of General-Purpose Audio Representations [33.15189569532155]
音声の汎用表現を学習するための自己教師付き事前学習手法であるCOLAを紹介する。
我々は、コンピュータビジョンと強化学習のコントラスト学習の最近の進歩に基づいて、軽量で実装が容易なオーディオモデルを設計する。
論文 参考訳(メタデータ) (2020-10-21T11:56:22Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - Automatic Melody Harmonization with Triad Chords: A Comparative Study [24.95868747256647]
本研究は,本課題に対する一組の標準的アプローチの性能を評価し,比較する比較研究である。
本研究のために新たに収集した9,226個のメロディ/コード対のデータセットを用いて,最大48個の三和弦について評価を行った。
論文 参考訳(メタデータ) (2020-01-08T03:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。