Fugu-MT 論文翻訳(概要): COCOLA: Coherence-Oriented Contrastive Learning of Musical Audio Representations

論文の概要: COCOLA: Coherence-Oriented Contrastive Learning of Musical Audio Representations

arxiv url: http://arxiv.org/abs/2404.16969v1
Date: Thu, 25 Apr 2024 18:42:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-29 14:43:43.645535
Title: COCOLA: Coherence-Oriented Contrastive Learning of Musical Audio Representations
Title（参考訳）: COCOLA:Coherence-Oriented Contrastive Learning of Musical Audio Representations
Authors: Ruben Ciranni, Emilian Postolache, Giorgio Mariani, Michele Mancusi, Luca Cosmo, Emanuele Rodolà,
Abstract要約: COCOLAは、サンプル間の調和的・リズム的コヒーレンスをキャプチャする、音響音響表現の対照的な学習方法である。提案手法は,楽曲を構成する幹のレベルで動作し,伴奏生成作業における楽曲構成モデルの客観的評価を可能にする。
参考スコア（独自算出の注目度）: 17.124189082882395
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present COCOLA (Coherence-Oriented Contrastive Learning for Audio), a contrastive learning method for musical audio representations that captures the harmonic and rhythmic coherence between samples. Our method operates at the level of stems (or their combinations) composing music tracks and allows the objective evaluation of compositional models for music in the task of accompaniment generation. We also introduce a new baseline for compositional music generation called CompoNet, based on ControlNet \cite{zhang2023adding}, generalizing the tasks of MSDM, and quantify it against the latter using COCOLA. We release all models trained on public datasets containing separate stems (MUSDB18-HQ, MoisesDB, Slakh2100, and CocoChorales).
Abstract（参考訳）: サンプル間の調和的・リズム的コヒーレンスをキャプチャする音声表現のコントラスト学習手法であるCOCOLA(Coherence-Oriented Contrastive Learning for Audio)を提案する。提案手法は,音楽トラックを構成する幹(あるいはそれらの組み合わせ)のレベルで動作し,伴奏生成作業における楽曲合成モデルの客観的評価を可能にする。また,ControlNet \cite{zhang2023adding}に基づくCompoNetという楽曲生成のための新しいベースラインを導入し,MSDMのタスクを一般化し,COCOLAを用いて後者に対して定量化する。 MUSDB18-HQ、MoisesDB、Slakh2100、CocoChorales)を含むパブリックデータセットでトレーニングされたすべてのモデルをリリースします。

関連論文リスト

From Discord to Harmony: Decomposed Consonance-based Training for Improved Audio Chord Estimation [9.584152437544974]
本稿では,従来の二分法を超えて拡張されたメトリクスを用いて,コードアノテーションにおけるアノテーション間合意の評価を行う。共振器を用いたラベル平滑化により、共振器の概念をモデルに統合する新しいACEコンバータモデルを提案する。
論文参考訳（メタデータ） (2025-09-01T16:20:47Z)
Adaptive Accompaniment with ReaLchords [60.690020661819055]
ユーザのメロディに合わせてコード伴奏を即興するオンライン生成モデルであるReaLchordsを提案する。まず、最大で事前訓練されたオンラインモデルから始め、強化学習を使用して、オンライン使用のためのモデルを微調整します。
論文参考訳（メタデータ） (2025-06-17T16:59:05Z)
LeVo: High-Quality Song Generation with Multi-Preference Alignment [49.94713419553945]
本稿では、LLMと音楽伴奏からなるLMベースのフレームワークであるLeVoを紹介する。 LeVoは2種類のトークンを並列にモデル化することができる: 混合トークンは声帯の合成音声を表し、声帯と伴奏を別々にエンコードする二重トラックトークンである。実験の結果,LeVoは客観的指標と主観的指標の両方において,既存の手法よりも一貫して優れていた。
論文参考訳（メタデータ） (2025-06-09T07:57:24Z)
Unleashing the Power of Natural Audio Featuring Multiple Sound Sources [54.38251699625379]
ユニバーサルサウンド分離は、混合音声から異なるイベントに対応するクリーンなオーディオトラックを抽出することを目的としている。複雑な混合音声を複数の独立したトラックに分解するために,データエンジンを利用するフレームワークであるClearSepを提案する。実験では、ClearSepは複数の音分離タスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-04-24T17:58:21Z)
Automatic Estimation of Singing Voice Musical Dynamics [9.343063100314687]
本稿では,データセットキュレーションの方法論を提案する。我々は163のスコアファイルと一致して509の楽曲のダイナミックスを歌声の演奏に注釈付けしたデータセットをコンパイルする。我々は、様々なウィンドウサイズを持つCNNモデルを訓練し、音楽力学を推定するの有効性を評価する。実験の結果,バークスケールによる音声力学予測は対数メル特徴よりも優れていた。
論文参考訳（メタデータ） (2024-10-27T18:15:18Z)
Stem-JEPA: A Joint-Embedding Predictive Architecture for Musical Stem Compatibility Estimation [3.8570045844185237]
マルチトラックデータセットでトレーニングした新しいJEPA(Joint-Embedding Predictive Architecture)であるStem-JEPAを紹介する。本モデルでは, エンコーダと予測器の2つのネットワークから構成される。 MUSDB18データセットの検索タスクにおいて、本モデルの性能を評価し、ミキシングから欠落した茎を見つける能力を検証した。
論文参考訳（メタデータ） (2024-08-05T14:34:40Z)
Generating Sample-Based Musical Instruments Using Neural Audio Codec Language Models [2.3749120526936465]
サンプルベース楽器の自動生成のためのニューラルオーディオ言語モデルを提案する。提案手法は,88キーのスペクトル,速度,テキスト/オーディオの埋め込みを併用した音声合成フレームワークを拡張した。
論文参考訳（メタデータ） (2024-07-22T13:59:58Z)
Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文参考訳（メタデータ） (2023-07-27T17:59:59Z)
MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文参考訳（メタデータ） (2023-05-31T18:27:43Z)
SeCo: Separating Unknown Musical Visual Sounds with Consistency Guidance [88.0355290619761]
この作品は未知の楽器の分離に焦点を当てている。本稿では,未知のカテゴリを分離できるセコ(SeCo)フレームワークを提案する。本手法は,新たな楽曲カテゴリに適応する能力を示し,基本手法を顕著なマージンで上回る性能を示す。
論文参考訳（メタデータ） (2022-03-25T09:42:11Z)
Visually Informed Binaural Audio Generation without Binaural Audios [130.80178993441413]
記録のない効果的なパイプラインであるPseudoBinauralを提案します。本研究では球面高調波分解と頭部関連インパルス応答(hrir)を用いて空間位置と受信音声の関係を同定する。当社の記録のないパイプラインは、データセット間の評価において大きな安定性を示し、主観的な好みで匹敵するパフォーマンスを実現します。
論文参考訳（メタデータ） (2021-04-13T13:07:33Z)
Contrastive Learning of General-Purpose Audio Representations [33.15189569532155]
音声の汎用表現を学習するための自己教師付き事前学習手法であるCOLAを紹介する。我々は、コンピュータビジョンと強化学習のコントラスト学習の最近の進歩に基づいて、軽量で実装が容易なオーディオモデルを設計する。
論文参考訳（メタデータ） (2020-10-21T11:56:22Z)
Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文参考訳（メタデータ） (2020-08-06T18:29:11Z)
Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文参考訳（メタデータ） (2020-08-01T07:46:24Z)
Automatic Melody Harmonization with Triad Chords: A Comparative Study [24.95868747256647]
本研究は,本課題に対する一組の標準的アプローチの性能を評価し,比較する比較研究である。本研究のために新たに収集した9,226個のメロディ/コード対のデータセットを用いて,最大48個の三和弦について評価を行った。
論文参考訳（メタデータ） (2020-01-08T03:47:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。