論文の概要: Modeling the Compatibility of Stem Tracks to Generate Music Mashups
- arxiv url: http://arxiv.org/abs/2103.14208v1
- Date: Fri, 26 Mar 2021 01:51:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-29 22:55:49.687310
- Title: Modeling the Compatibility of Stem Tracks to Generate Music Mashups
- Title(参考訳): 音楽マッシュアップ生成のためのstemトラックの互換性のモデル化
- Authors: Jiawen Huang, Ju-Chiang Wang, Jordan B. L. Smith, Xuchen Song, Yuxuan
Wang
- Abstract要約: 音楽マッシュアップは、2つ以上の曲のオーディオ要素を組み合わせて新しい作品を作成する。
研究は、オーディオ要素の互換性を予測するアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 6.922825755771942
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A music mashup combines audio elements from two or more songs to create a new
work. To reduce the time and effort required to make them, researchers have
developed algorithms that predict the compatibility of audio elements. Prior
work has focused on mixing unaltered excerpts, but advances in source
separation enable the creation of mashups from isolated stems (e.g., vocals,
drums, bass, etc.). In this work, we take advantage of separated stems not just
for creating mashups, but for training a model that predicts the mutual
compatibility of groups of excerpts, using self-supervised and semi-supervised
methods. Specifically, we first produce a random mashup creation pipeline that
combines stem tracks obtained via source separation, with key and tempo
automatically adjusted to match, since these are prerequisites for high-quality
mashups. To train a model to predict compatibility, we use stem tracks obtained
from the same song as positive examples, and random combinations of stems with
key and/or tempo unadjusted as negative examples. To improve the model and use
more data, we also train on "average" examples: random combinations with
matching key and tempo, where we treat them as unlabeled data as their true
compatibility is unknown. To determine whether the combined signal or the set
of stem signals is more indicative of the quality of the result, we experiment
on two model architectures and train them using semi-supervised learning
technique. Finally, we conduct objective and subjective evaluations of the
system, comparing them to a standard rule-based system.
- Abstract(参考訳): 音楽マッシュアップは、2つ以上の曲のオーディオ要素を組み合わせて新しい作品を作成する。
それらを作るのに必要な時間と労力を減らすために、研究者はオーディオ要素の互換性を予測するアルゴリズムを開発した。
以前の研究は、未修正の抜粋を混ぜることに焦点を当てていたが、ソース分離の進歩により、独立した茎(例えば、ボーカル、ドラム、ベースなど)からマッシュアップを作成することができる。
本研究では,マッシュアップを創出するだけでなく,自己教師的・半教師的手法を用いて,抽出群間の相互整合性を予測するモデルを訓練する。
具体的には、まず、ソース分離によって得られたstemトラックと、高品質マッシュアップの前提条件であるキーとテンポの自動調整を組み合わせたランダムマッシュアップ生成パイプラインを作成する。
整合性を予測するために,同じ歌から得られたステムトラックを正の例とし,キーとテンポのランダムな組み合わせを負の例として用いた。
モデルを改善し、より多くのデータを使用するために、マッチングキーとテンポとランダムに組み合わせた"平均"の例もトレーニングします。
複合信号とstem信号の組み合わせが結果の質を示すかどうかを判断するために, 2つのモデルアーキテクチャを実験し, 半教師付き学習手法を用いて学習する。
最後に,本システムを標準ルールベースシステムと比較し,客観的かつ主観的評価を行う。
関連論文リスト
- Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Benchmarks and leaderboards for sound demixing tasks [44.99833362998488]
音源分離タスクのための2つの新しいベンチマークを導入する。
これらのベンチマークでは、音のデミックスやアンサンブルなどの人気モデルを比較します。
また,特定の茎に最適な異なるモデルのアンサンブルに基づく,音声分離のための新しいアプローチも開発している。
論文 参考訳(メタデータ) (2023-05-12T14:00:26Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Mix and Localize: Localizing Sound Sources in Mixtures [10.21507741240426]
本稿では,複数の音源を同時に可視化する手法を提案する。
本手法は,Jabriらのランダムウォークにヒントを得た定式化を用いて,両課題を同時に解決する。
我々は、楽器と人間の音声による実験を通して、モデルが複数の音のローカライズに成功することを示す。
論文 参考訳(メタデータ) (2022-11-28T04:30:50Z) - Synthesizer Preset Interpolation using Transformer Auto-Encoders [4.213427823201119]
本稿では,マルチヘッドアテンションブロックを用いてプリセットを同時に処理するバイモーダルオートエンコーダニューラルネットワークと,畳み込みを用いたオーディオを導入する。
このモデルは、100以上のパラメータを持つ一般的な周波数変調シンセサイザーでテストされている。
トレーニング後、提案したモデルは、ライブまたはサウンドデザインタスクのための商用シンセサイザーに統合することができる。
論文 参考訳(メタデータ) (2022-10-27T15:20:18Z) - Improved singing voice separation with chromagram-based pitch-aware
remixing [26.299721372221736]
高いピッチアライメントを持つ音楽セグメントを混合したクロマグラムベースのピッチ認識リミックスを提案する。
我々は、ピッチ認識リミックスによるトレーニングモデルにより、テスト信号-歪み比(SDR)が大幅に改善されることを実証した。
論文 参考訳(メタデータ) (2022-03-28T20:55:54Z) - A Unified Model for Zero-shot Music Source Separation, Transcription and
Synthesis [13.263771543118994]
1)混合音源から個々の音源をテキスト化する,2)各音源をMIDI音符に書き起こす,3)分離音源の音色に基づいて新曲を合成する,という3つのタスクの統一モデルを提案する。
このモデルは、人間が音楽を聴くとき、私たちの心は異なる楽器の音を分離できるだけでなく、スコアや音色といったハイレベルな表現も認識できるという事実にインスピレーションを受けています。
論文 参考訳(メタデータ) (2021-08-07T14:28:21Z) - A framework to compare music generative models using automatic
evaluation metrics extended to rhythm [69.2737664640826]
本稿では,前回の研究で提示された,リズムを考慮せず,設計決定を下すための枠組みを取り上げ,単音素音楽作成における2つのrnnメモリセルの性能評価のためにリズムサポートを付加した。
モデルでは,音素変換の処理を考慮し,リズムサポートを付加した幾何学に基づく自動計測値を用いて,生成した楽曲の質を評価する。
論文 参考訳(メタデータ) (2021-01-19T15:04:46Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - RL-Duet: Online Music Accompaniment Generation Using Deep Reinforcement
Learning [69.20460466735852]
本稿では,オンライン伴奏生成のための深層強化学習アルゴリズムを提案する。
提案アルゴリズムは人体に応答し,メロディック,ハーモニック,多種多様な機械部品を生成する。
論文 参考訳(メタデータ) (2020-02-08T03:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。