論文の概要: Music Mixing Style Transfer: A Contrastive Learning Approach to
Disentangle Audio Effects
- arxiv url: http://arxiv.org/abs/2211.02247v3
- Date: Tue, 11 Apr 2023 07:53:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 18:50:05.369149
- Title: Music Mixing Style Transfer: A Contrastive Learning Approach to
Disentangle Audio Effects
- Title(参考訳): 音楽ミキシングスタイルトランスファー:オーディオ効果の解消のためのコントラスト学習アプローチ
- Authors: Junghyun Koo, Marco A. Mart\'inez-Ram\'irez, Wei-Hsiang Liao, Stefan
Uhlich, Kyogu Lee, Yuki Mitsufuji
- Abstract要約: 入力されたマルチトラックのミキシングスタイルを参照歌のミキシングスタイルに変換するエンド・ツー・エンドのミキシングスタイル転送システムを提案する。
これは、基準音楽記録からオーディオ効果関連情報のみを抽出するために、コントラスト目的で事前訓練されたエンコーダで達成される。
- 参考スコア(独自算出の注目度): 23.29395422386749
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an end-to-end music mixing style transfer system that converts the
mixing style of an input multitrack to that of a reference song. This is
achieved with an encoder pre-trained with a contrastive objective to extract
only audio effects related information from a reference music recording. All
our models are trained in a self-supervised manner from an already-processed
wet multitrack dataset with an effective data preprocessing method that
alleviates the data scarcity of obtaining unprocessed dry data. We analyze the
proposed encoder for the disentanglement capability of audio effects and also
validate its performance for mixing style transfer through both objective and
subjective evaluations. From the results, we show the proposed system not only
converts the mixing style of multitrack audio close to a reference but is also
robust with mixture-wise style transfer upon using a music source separation
model.
- Abstract(参考訳): 入力されたマルチトラックのミキシングスタイルを参照歌のミキシングスタイルに変換するエンド・ツー・エンドのミキシングスタイル転送システムを提案する。
これは、参照音楽記録からオーディオ効果関連情報のみを抽出するコントラスト目的のエンコーダによって実現される。
我々のモデルはすべて、未処理のドライデータを取得するデータの不足を軽減する効果的なデータプリプロセッシング手法で、すでに処理済みの湿式マルチトラックデータセットから自己教師ありで訓練される。
音響効果のアンタングル化能力について提案したエンコーダを解析し、客観評価と主観評価の両面からスタイル伝達を混合する性能を検証した。
この結果から,提案システムは参照に近いマルチトラックオーディオの混合スタイルを変換するだけでなく,音源分離モデルを用いた混合スタイルの転送にも頑健であることを示す。
関連論文リスト
- Music Style Transfer With Diffusion Model [11.336043499372792]
本研究では,拡散モデル(DM)に基づく音楽スタイルの転送フレームワークを提案し,スペクトル法を用いてマルチ・マルチ・マルチ音楽スタイルの転送を実現する。
GuideDiff法は、スペクトルを高忠実度オーディオに復元し、音声生成速度を加速し、生成されたオーディオのノイズを低減するために用いられる。
論文 参考訳(メタデータ) (2024-04-23T06:22:19Z) - Bass Accompaniment Generation via Latent Diffusion [0.0]
任意の長さのミキシングに付随する単一茎を生成する制御可能なシステムを提案する。
本手法のコアとなるのは、音声波形サンプルを効率よく非可逆な潜在表現に圧縮するオーディオオートエンコーダである。
制御可能な条件付きオーディオ生成フレームワークは、音楽制作においてミュージシャンを支援するための生成AIツールを作成する上で、大きな前進となる。
論文 参考訳(メタデータ) (2024-02-02T13:44:47Z) - High-Quality Visually-Guided Sound Separation from Diverse Categories [56.92841782969847]
DAVISは拡散に基づくオーディオ視覚分離フレームワークである。
分離された音をガウス雑音から直接合成し、オーディオミックスと視覚情報の両方に条件付けする。
AVEおよびMUSICデータセット上で,DAVISを既存の最先端の識別的音声視覚分離法と比較した。
論文 参考訳(メタデータ) (2023-07-31T19:41:49Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Automatic music mixing with deep learning and out-of-domain data [10.670987762781834]
伝統的に、音楽のミキシングは、クリーンで個々のトラックの形で楽器を録音し、オーディオ効果と専門家の知識を使ってそれらを最後のミキシングに混ぜる。
本稿では,モデルが自動音楽ミキシングを行うことのできる新しいデータ前処理手法を提案する。
また,音楽ミキシングシステム評価のためのリスニングテスト手法を再設計した。
論文 参考訳(メタデータ) (2022-08-24T10:50:22Z) - Improved singing voice separation with chromagram-based pitch-aware
remixing [26.299721372221736]
高いピッチアライメントを持つ音楽セグメントを混合したクロマグラムベースのピッチ認識リミックスを提案する。
我々は、ピッチ認識リミックスによるトレーニングモデルにより、テスト信号-歪み比(SDR)が大幅に改善されることを実証した。
論文 参考訳(メタデータ) (2022-03-28T20:55:54Z) - Automatic DJ Transitions with Differentiable Audio Effects and
Generative Adversarial Networks [30.480360404811197]
Disc Jockey (DJ) の中心的なタスクは、隣接するトラック間のシームレスな遷移を伴うミューシックのミックスセットを作成することである。
本稿では,実世界のDJミキシングから学習することで,生成的敵対ネットワークを用いて楽曲遷移を生成するデータ駆動型アプローチについて検討する。
論文 参考訳(メタデータ) (2021-10-13T06:25:52Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Differentiable Signal Processing With Black-Box Audio Effects [44.93154498647659]
本稿では,ステートフルなサードパーティの音声効果をディープニューラルネットワーク内のレイヤとして組み込むことで,音声信号処理を自動化するデータ駆動手法を提案する。
我々の手法は、音楽マスタリングのための専門的で最先端の商用ソリューションに匹敵する結果を得られることを示す。
論文 参考訳(メタデータ) (2021-05-11T02:20:22Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。