論文の概要: Reverb Conversion of Mixed Vocal Tracks Using an End-to-end
Convolutional Deep Neural Network
- arxiv url: http://arxiv.org/abs/2103.02147v1
- Date: Wed, 3 Mar 2021 03:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 14:45:20.150516
- Title: Reverb Conversion of Mixed Vocal Tracks Using an End-to-end
Convolutional Deep Neural Network
- Title(参考訳): エンドツーエンド畳み込みニューラルネットワークを用いた混合音声トラックのリバーブ変換
- Authors: Junghyun Koo, Seungryeol Paik, Kyogu Lee
- Abstract要約: 2つの異なるボーカルトラックのリバーブファクターを切り替えることができるエンド・ツー・エンドシステムを提案する。
提案モデルは,高分解能オーディオサンプルの処理を可能にする敵目的と組み合わせて訓練される。
私たちの知る限りでは、これはディープニューラルネットワークをボーカルトラックの音楽残響変換に適用する最初の試みです。
- 参考スコア(独自算出の注目度): 13.346699679801523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reverb plays a critical role in music production, where it provides listeners
with spatial realization, timbre, and texture of the music. Yet, it is
challenging to reproduce the musical reverb of a reference music track even by
skilled engineers. In response, we propose an end-to-end system capable of
switching the musical reverb factor of two different mixed vocal tracks. This
method enables us to apply the reverb of the reference track to the source
track to which the effect is desired. Further, our model can perform
de-reverberation when the reference track is used as a dry vocal source. The
proposed model is trained in combination with an adversarial objective, which
makes it possible to handle high-resolution audio samples. The perceptual
evaluation confirmed that the proposed model can convert the reverb factor with
the preferred rate of 64.8%. To the best of our knowledge, this is the first
attempt to apply deep neural networks to converting music reverb of vocal
tracks.
- Abstract(参考訳): リバーブは音楽制作において重要な役割を果たし、リスナーに音楽の空間的実現、音色、質感を提供します。
しかし,熟練した技術者でも参照楽曲の楽曲残響を再現することは困難である。
そこで本研究では,2つの異なる混声トラックの音楽的残響係数を切り替えることができるエンドツーエンドシステムを提案する。
本手法は,その効果が望まれるソーストラックに対して,参照トラックの残響を適用できるようにする。
さらに,本モデルでは,基準トラックをドライボーカルソースとして使用する場合,残響除去を行うことができる。
提案モデルは,高分解能オーディオサンプルの処理を可能にする敵目的と組み合わせて訓練される。
知覚評価により,提案モデルが64.8%の好率で残響因子を変換できることを確認した。
私たちの知る限りでは、これはディープニューラルネットワークをボーカルトラックの音楽残響変換に適用する最初の試みです。
関連論文リスト
- Resource-constrained stereo singing voice cancellation [1.0962868591006976]
ステレオ歌唱音声キャンセリングの問題点について検討する。
提案手法は,客観的なオフラインメトリクスと大規模MUSHRA試験を用いて評価する。
論文 参考訳(メタデータ) (2024-01-22T16:05:30Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Unsupervised vocal dereverberation with diffusion-based generative
models [12.713895991763867]
そこで本稿では,学習にデータペアを必要とすることなく,一般的な音楽用人工残響を除去するための教師なし手法を提案する。
提案手法は,従来の有声弁別評価基準より優れており,客観的および知覚的評価が優れていることを示す。
論文 参考訳(メタデータ) (2022-11-08T09:43:01Z) - Music Mixing Style Transfer: A Contrastive Learning Approach to
Disentangle Audio Effects [23.29395422386749]
入力されたマルチトラックのミキシングスタイルを参照歌のミキシングスタイルに変換するエンド・ツー・エンドのミキシングスタイル転送システムを提案する。
これは、基準音楽記録からオーディオ効果関連情報のみを抽出するために、コントラスト目的で事前訓練されたエンコーダで達成される。
論文 参考訳(メタデータ) (2022-11-04T03:45:17Z) - Improved singing voice separation with chromagram-based pitch-aware
remixing [26.299721372221736]
高いピッチアライメントを持つ音楽セグメントを混合したクロマグラムベースのピッチ認識リミックスを提案する。
我々は、ピッチ認識リミックスによるトレーニングモデルにより、テスト信号-歪み比(SDR)が大幅に改善されることを実証した。
論文 参考訳(メタデータ) (2022-03-28T20:55:54Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - Rapping-Singing Voice Synthesis based on Phoneme-level Prosody Control [47.33830090185952]
任意の話者の声に適応できるテキスト・トゥ・ラッピング・歌唱システムを導入する。
読み上げ専用音声データに基づいて訓練されたタコトロンベースのマルチスピーカ音響モデルを利用する。
その結果,提案手法は自然性を高めた高品質なラッピング/歌唱音声を生成できることが示唆された。
論文 参考訳(メタデータ) (2021-11-17T14:31:55Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。