論文の概要: End-to-end Music Remastering System Using Self-supervised and
Adversarial Training
- arxiv url: http://arxiv.org/abs/2202.08520v1
- Date: Thu, 17 Feb 2022 08:50:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 22:44:27.520389
- Title: End-to-end Music Remastering System Using Self-supervised and
Adversarial Training
- Title(参考訳): 自己指導・対人訓練を用いたエンドツーエンド音楽リマスターシステム
- Authors: Junghyun Koo, Seungryeol Paik, Kyogu Lee
- Abstract要約: 本稿では,入力音声のマスタリングスタイルをターゲットに変換するエンド・ツー・エンドの音楽リマスターシステムを提案する。
システムは自己指導的な方法で訓練され、解放されたポップソングがトレーニングに使用された。
実験の結果を定量的な測定値と主観的聴力テストで検証し,本モデルが対象と類似したマスタリングスタイルのサンプルを生成することを示す。
- 参考スコア(独自算出の注目度): 18.346033788545135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mastering is an essential step in music production, but it is also a
challenging task that has to go through the hands of experienced audio
engineers, where they adjust tone, space, and volume of a song. Remastering
follows the same technical process, in which the context lies in mastering a
song for the times. As these tasks have high entry barriers, we aim to lower
the barriers by proposing an end-to-end music remastering system that
transforms the mastering style of input audio to that of the target. The system
is trained in a self-supervised manner, in which released pop songs were used
for training. We also anticipated the model to generate realistic audio
reflecting the reference's mastering style by applying a pre-trained encoder
and a projection discriminator. We validate our results with quantitative
metrics and a subjective listening test and show that the model generated
samples of mastering style similar to the target.
- Abstract(参考訳): マスタリングは音楽制作において不可欠なステップだが、経験豊富なオーディオエンジニアの手に渡り、曲のトーン、スペース、ボリュームを調整しなければならない課題でもある。
リマスターは同じ技術的プロセスに従っており、そのコンテキストは当時の曲をマスターすることにある。
これらのタスクは入力障壁が高いため、入力音声のマスタリングスタイルをターゲットに変換するエンドツーエンドの音楽リマスターシステムを提案することにより、障壁を低くすることを目指している。
システムは自己指導的な方法で訓練され、解放されたポップソングがトレーニングに使用された。
また,事前学習したエンコーダと投影判別器を適用して,参照のマスタリングスタイルを反映した現実的な音声を生成するモデルも期待した。
その結果を定量的指標と主観的聞き取りテストを用いて検証し,モデルが目標と類似したマスタリングスタイルのサンプルを生成したことを示す。
関連論文リスト
- MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - Resource-constrained stereo singing voice cancellation [1.0962868591006976]
ステレオ歌唱音声キャンセリングの問題点について検討する。
提案手法は,客観的なオフラインメトリクスと大規模MUSHRA試験を用いて評価する。
論文 参考訳(メタデータ) (2024-01-22T16:05:30Z) - Controllable Music Production with Diffusion Models and Guidance
Gradients [3.187381965457262]
44.1kHzステレオオーディオにおいて,拡散モデルから条件付き生成を用いて,様々な現実的なタスクに対処する方法を実証する。
このシナリオには、継続性、音楽オーディオのインペイントと再生、2つの異なる音楽トラック間のスムーズな遷移の生成、既存のオーディオクリップへの所望のスタイル特性の転送などが含まれる。
論文 参考訳(メタデータ) (2023-11-01T16:01:01Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - Music Instrument Classification Reprogrammed [79.68916470119743]
プログラム」とは、事前学習されたモデルの入力と出力の両方を修正・マッピングすることで、もともと異なるタスクをターゲットにした、事前学習された深層・複雑なニューラルネットワークを利用する手法である。
本研究では,異なるタスクで学習した表現のパワーを効果的に活用できることを実証し,結果として得られた再プログラムシステムは,訓練パラメータのごく一部で,同等あるいはそれ以上の性能を持つシステムでも実行可能であることを実証する。
論文 参考訳(メタデータ) (2022-11-15T18:26:01Z) - Automatic music mixing with deep learning and out-of-domain data [10.670987762781834]
伝統的に、音楽のミキシングは、クリーンで個々のトラックの形で楽器を録音し、オーディオ効果と専門家の知識を使ってそれらを最後のミキシングに混ぜる。
本稿では,モデルが自動音楽ミキシングを行うことのできる新しいデータ前処理手法を提案する。
また,音楽ミキシングシステム評価のためのリスニングテスト手法を再設計した。
論文 参考訳(メタデータ) (2022-08-24T10:50:22Z) - Learning music audio representations via weak language supervision [14.335950077921435]
我々は,一連のプロキシタスクによって最適化された音楽と言語事前学習(MuLaP)のためのマルチモーダルアーキテクチャを設計する。
弱い監督は、トラックの全体的な音楽内容を伝える、騒々しい自然言語記述の形で提供される。
提案手法の有効性を,同一のオーディオバックボーンが生成する音声表現の性能と,異なる学習戦略とを比較して示す。
論文 参考訳(メタデータ) (2021-12-08T10:30:52Z) - Binaural SoundNet: Predicting Semantics, Depth and Motion with Binaural
Sounds [118.54908665440826]
人間は視覚的および/または聴覚的手がかりを用いて、オブジェクトを頑健に認識し、ローカライズすることができる。
この研究は、純粋に音に基づくシーン理解のためのアプローチを開発する。
視覚的および音声的手がかりの共存は、監督伝達に活用される。
論文 参考訳(メタデータ) (2021-09-06T22:24:00Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。