論文の概要: Deep Learning Approach for Singer Voice Classification of Vietnamese
Popular Music
- arxiv url: http://arxiv.org/abs/2102.12111v1
- Date: Wed, 24 Feb 2021 08:03:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 06:55:53.675087
- Title: Deep Learning Approach for Singer Voice Classification of Vietnamese
Popular Music
- Title(参考訳): ベトナムのポピュラー音楽の歌声分類のための深層学習手法
- Authors: Toan Pham Van, Ngoc N. Tran, and Ta Minh Thanh
- Abstract要約: ベトナムのポピュラー音楽の分析に基づいて,歌手の名前を識別する新しい手法を提案する。
音声セグメント検出と歌声分離を前処理ステップとして利用しています。
本手法の正確性を検証するために,ベトナムの有名な歌手18人の歌曲300曲のデータセットを評価した。
- 参考スコア(独自算出の注目度): 1.2043574473965315
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Singer voice classification is a meaningful task in the digital era. With a
huge number of songs today, identifying a singer is very helpful for music
information retrieval, music properties indexing, and so on. In this paper, we
propose a new method to identify the singer's name based on analysis of
Vietnamese popular music. We employ the use of vocal segment detection and
singing voice separation as the pre-processing steps. The purpose of these
steps is to extract the singer's voice from the mixture sound. In order to
build a singer classifier, we propose a neural network architecture working
with Mel Frequency Cepstral Coefficient as extracted input features from said
vocal. To verify the accuracy of our methods, we evaluate on a dataset of 300
Vietnamese songs from 18 famous singers. We achieve an accuracy of 92.84% with
5-fold stratified cross-validation, the best result compared to other methods
on the same data set.
- Abstract(参考訳): 歌声分類はデジタル時代において重要な課題である。
今日の膨大な数の曲では、歌手を特定することは、音楽情報検索、音楽プロパティインデックス作成などに非常に役立ちます。
本稿では,ベトナムのポピュラー音楽の分析に基づいて,歌手の名前を識別する新しい手法を提案する。
音声セグメント検出と歌声分離を前処理ステップとして利用しています。
これらのステップの目的は、混合音から歌手の声を抽出することです。
歌手分類器を構築するために,Mel frequency Cepstral Coefficientを用いたニューラルネットワークアーキテクチャを,そのボーカルから抽出された入力機能として提案する。
本手法の正確性を検証するために,ベトナムの有名な歌手18人の歌曲300曲のデータセットを評価した。
5倍の階層化クロスバリデーションで92.84%の精度を達成し、同じデータセット上の他の方法と比較して最高の結果が得られます。
関連論文リスト
- GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks [52.30565320125514]
GTSingerは、グローバルで、多技術で、無料で使える、高品質な歌唱コーパスで、リアルな音楽スコアがある。
高品質な歌声を80.59時間収集し、最大の歌唱データセットを形成する。
我々は,技術制御可能な歌唱音声合成,技術認識,スタイル伝達,音声歌唱変換の4つのベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-09-20T18:18:14Z) - From Real to Cloned Singer Identification [7.407642348217603]
歌手レベルのコントラスト学習方式を用いて学習した3つの埋め込みモデルを提案する。
3つのモデルがすべて、本物の歌手を識別できることを実証する。
しかし, 評価セットにおいて, 歌手のクローンバージョンを分類すると, 性能は低下する。
論文 参考訳(メタデータ) (2024-07-11T16:25:21Z) - Singer Identity Representation Learning using Self-Supervised Techniques [0.0]
歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。
我々は,孤立した音声トラックの集合体上で,異なる自己教師付き学習手法を探索する。
歌手の類似度と識別タスクにおける表現の質を評価する。
論文 参考訳(メタデータ) (2024-01-10T10:41:38Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - A Phoneme-Informed Neural Network Model for Note-Level Singing
Transcription [11.951441023641975]
本稿では,歌唱の言語的特徴を活用して,より正確に歌唱音声の音節オンセットを見つける方法を提案する。
本手法は, 歌唱文の書き起こし性能を大幅に向上させ, 歌唱分析における言語的特徴の重要性を強調している。
論文 参考訳(メタデータ) (2023-04-12T15:36:01Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - VAW-GAN for Singing Voice Conversion with Non-parallel Training Data [81.79070894458322]
VAW-GANに基づく歌声変換フレームワークを提案する。
我々はエンコーダを訓練し、歌手のアイデンティティと歌唱の韻律(F0)を音声コンテンツから切り離す。
シンガーIDとF0を条件付けすることにより、デコーダは、目に見えないターゲットシンガーIDの出力スペクトル特徴を生成する。
論文 参考訳(メタデータ) (2020-08-10T09:44:10Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - DeepSinger: Singing Voice Synthesis with Data Mined From the Web [194.10598657846145]
DeepSinger(ディープシンガー)は、音楽ウェブサイトから抽出された歌唱訓練データを用いて、スクラッチから構築された多言語歌唱音声合成システムである。
DeepSingerを3つの言語で89人の歌手から約92時間のデータからなるマイニングされた歌唱データセットで評価した。
論文 参考訳(メタデータ) (2020-07-09T07:00:48Z) - Addressing the confounds of accompaniments in singer identification [29.949390919663596]
我々は、ソース分離における最先端のパフォーマンスを備えたオープンソースツールであるopen-Unmixを用いて、ボーカルと楽器のトラックを分離する。
次に,歌手識別モデルを学習する2つの方法について検討する。
論文 参考訳(メタデータ) (2020-02-17T07:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。