論文の概要: Resource-constrained stereo singing voice cancellation
- arxiv url: http://arxiv.org/abs/2401.12068v1
- Date: Mon, 22 Jan 2024 16:05:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 13:22:09.980956
- Title: Resource-constrained stereo singing voice cancellation
- Title(参考訳): 資源制約ステレオ歌唱音声キャンセリング
- Authors: Clara Borrelli, James Rae, Dogac Basaran, Matt McVicar, Mehrez Souden,
Matthias Mauch
- Abstract要約: ステレオ歌唱音声キャンセリングの問題点について検討する。
提案手法は,客観的なオフラインメトリクスと大規模MUSHRA試験を用いて評価する。
- 参考スコア(独自算出の注目度): 1.0962868591006976
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of stereo singing voice cancellation, a subtask of music
source separation, whose goal is to estimate an instrumental background from a
stereo mix. We explore how to achieve performance similar to large
state-of-the-art source separation networks starting from a small, efficient
model for real-time speech separation. Such a model is useful when memory and
compute are limited and singing voice processing has to run with limited
look-ahead. In practice, this is realised by adapting an existing mono model to
handle stereo input. Improvements in quality are obtained by tuning model
parameters and expanding the training set. Moreover, we highlight the benefits
a stereo model brings by introducing a new metric which detects attenuation
inconsistencies between channels. Our approach is evaluated using objective
offline metrics and a large-scale MUSHRA trial, confirming the effectiveness of
our techniques in stringent listening tests.
- Abstract(参考訳): 本研究では,ステレオミックスから楽器の背景を推定することを目的とした,音源分離のサブタスクであるステレオ歌唱音声キャンセルの問題について検討する。
実時間音声分離のための小型かつ効率的なモデルから始まる,最先端の大規模音源分離ネットワークに類似した性能を実現する方法について検討する。
このようなモデルは、メモリと計算が制限され、歌唱音声処理が限られたルックアヘッドで実行されなければならない場合に有用である。
実際、これはステレオ入力を処理するために既存のモノモデルを適用することで実現される。
モデルパラメータをチューニングし、トレーニングセットを拡大することで、品質の改善が得られる。
さらに,チャネル間の減衰不整合を検出する新しいメトリックを導入することで,ステレオモデルがもたらすメリットを強調する。
提案手法は,客観的オフライン計測と大規模MUSHRA試験を用いて評価し,厳密な聴取試験における手法の有効性を確認した。
関連論文リスト
- MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Self-supervised Auxiliary Loss for Metric Learning in Music
Similarity-based Retrieval and Auto-tagging [0.0]
類似性に基づく検索課題に対処するために,自己教師付き学習アプローチに基づくモデルを提案する。
また, 微調整期間中の増員を控えることで, 良好な結果が得られた。
論文 参考訳(メタデータ) (2023-04-15T02:00:28Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Improved singing voice separation with chromagram-based pitch-aware
remixing [26.299721372221736]
高いピッチアライメントを持つ音楽セグメントを混合したクロマグラムベースのピッチ認識リミックスを提案する。
我々は、ピッチ認識リミックスによるトレーニングモデルにより、テスト信号-歪み比(SDR)が大幅に改善されることを実証した。
論文 参考訳(メタデータ) (2022-03-28T20:55:54Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。