論文の概要: Addressing the confounds of accompaniments in singer identification
- arxiv url: http://arxiv.org/abs/2002.06817v1
- Date: Mon, 17 Feb 2020 07:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 13:15:46.102834
- Title: Addressing the confounds of accompaniments in singer identification
- Title(参考訳): 歌手識別における伴奏の相違について
- Authors: Tsung-Han Hsieh, Kai-Hsiang Cheng, Zhe-Cheng Fan, Yu-Ching Yang,
Yi-Hsuan Yang
- Abstract要約: 我々は、ソース分離における最先端のパフォーマンスを備えたオープンソースツールであるopen-Unmixを用いて、ボーカルと楽器のトラックを分離する。
次に,歌手識別モデルを学習する2つの方法について検討する。
- 参考スコア(独自算出の注目度): 29.949390919663596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identifying singers is an important task with many applications. However, the
task remains challenging due to many issues. One major issue is related to the
confounding factors from the background instrumental music that is mixed with
the vocals in music production. A singer identification model may learn to
extract non-vocal related features from the instrumental part of the songs, if
a singer only sings in certain musical contexts (e.g., genres). The model
cannot therefore generalize well when the singer sings in unseen contexts. In
this paper, we attempt to address this issue. Specifically, we employ
open-unmix, an open source tool with state-of-the-art performance in source
separation, to separate the vocal and instrumental tracks of music. We then
investigate two means to train a singer identification model: by learning from
the separated vocal only, or from an augmented set of data where we
"shuffle-and-remix" the separated vocal tracks and instrumental tracks of
different songs to artificially make the singers sing in different contexts. We
also incorporate melodic features learned from the vocal melody contour for
better performance. Evaluation results on a benchmark dataset called the
artist20 shows that this data augmentation method greatly improves the accuracy
of singer identification.
- Abstract(参考訳): 歌手の同定は多くの応用において重要な課題である。
しかし、多くの問題により課題は残る。
一つの大きな問題は、音楽制作におけるボーカルと混ざった背景楽器音楽の確立要因に関するものである。
歌手識別モデルは、歌手が特定の音楽的文脈(例えばジャンル)でのみ歌う場合、歌のインストゥルメンタルな部分から非ボーカル的特徴を抽出することを学ぶことができる。
したがって、歌手が目に見えない文脈で歌うとき、モデルはうまく一般化できない。
本稿では,この問題に対処しようとする。
具体的には,オープンソースのオープンソースツールであるOpen-Unmixを用いて,声楽と楽器のトラックを分離する。
次に、分離されたボーカルのみから学習するか、分離されたボーカルトラックと異なる曲の楽器トラックを「シャッフル&リミックス」して、歌手を異なる文脈で人工的に歌わせるという、歌手識別モデルを訓練する2つの方法を検討する。
また,声帯から学習したメロディ的特徴を取り入れ,演奏性の向上を図る。
artist20と呼ばれるベンチマークデータセットの評価結果は、このデータ拡張手法が歌手識別の精度を大幅に向上させることを示している。
関連論文リスト
- GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks [52.30565320125514]
GTSingerは、グローバルで、多技術で、無料で使える、高品質な歌唱コーパスで、リアルな音楽スコアがある。
高品質な歌声を80.59時間収集し、最大の歌唱データセットを形成する。
我々は,技術制御可能な歌唱音声合成,技術認識,スタイル伝達,音声歌唱変換の4つのベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-09-20T18:18:14Z) - SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。
モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。
実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文 参考訳(メタデータ) (2024-09-09T19:37:07Z) - From Real to Cloned Singer Identification [7.407642348217603]
歌手レベルのコントラスト学習方式を用いて学習した3つの埋め込みモデルを提案する。
3つのモデルがすべて、本物の歌手を識別できることを実証する。
しかし, 評価セットにおいて, 歌手のクローンバージョンを分類すると, 性能は低下する。
論文 参考訳(メタデータ) (2024-07-11T16:25:21Z) - Text-to-Song: Towards Controllable Music Generation Incorporating Vocals and Accompaniment [56.019288564115136]
ボーカルと伴奏の両方を組み込んだテキスト・ツー・サング・シンセサイザーという新しいタスクを提案する。
我々は,歌唱音声合成 (SVS) とV2A合成 (V2A) を組み合わせた2段階音声合成法であるメロディストを開発した。
評価結果は,メロディストが同等の品質とスタイルの整合性で楽曲を合成できることを実証した。
論文 参考訳(メタデータ) (2024-04-14T18:00:05Z) - Singer Identity Representation Learning using Self-Supervised Techniques [0.0]
歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。
我々は,孤立した音声トラックの集合体上で,異なる自己教師付き学習手法を探索する。
歌手の類似度と識別タスクにおける表現の質を評価する。
論文 参考訳(メタデータ) (2024-01-10T10:41:38Z) - SingFake: Singing Voice Deepfake Detection [16.82140520915859]
歌声は音声の発声と異なる音響的・言語的特徴を示す。
最初にSingFakeを紹介した。これは、28.93時間のボナフィドからなる、最初の計算済みのインザミルドデータセットである。
次に、SingFakeを用いて、音声発話に基づいて訓練された4つの最先端音声対策システムを評価する。
論文 参考訳(メタデータ) (2023-09-14T08:49:05Z) - Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。
メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文 参考訳(メタデータ) (2023-05-12T20:57:20Z) - SingSong: Generating musical accompaniments from singing [35.819589427197464]
入力ボーカルに付随する楽器音楽を生成するシステムであるSingSongについて述べる。
同じ音声入力と比較して、リスナーはSingSongが生成したインストゥルメンタルに対して重要な嗜好を表現した。
論文 参考訳(メタデータ) (2023-01-30T04:53:23Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - Deep Learning Approach for Singer Voice Classification of Vietnamese
Popular Music [1.2043574473965315]
ベトナムのポピュラー音楽の分析に基づいて,歌手の名前を識別する新しい手法を提案する。
音声セグメント検出と歌声分離を前処理ステップとして利用しています。
本手法の正確性を検証するために,ベトナムの有名な歌手18人の歌曲300曲のデータセットを評価した。
論文 参考訳(メタデータ) (2021-02-24T08:03:07Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。