論文の概要: Boosting the Predictive Accurary of Singer Identification Using Discrete
Wavelet Transform For Feature Extraction
- arxiv url: http://arxiv.org/abs/2102.00550v1
- Date: Sun, 31 Jan 2021 21:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-04 16:12:15.880356
- Title: Boosting the Predictive Accurary of Singer Identification Using Discrete
Wavelet Transform For Feature Extraction
- Title(参考訳): 離散ウェーブレット変換を用いた特徴抽出のためのシンガー識別の予測精度向上
- Authors: Victoire Djimna Noyum, Younous Perieukeu Mofenjou, Cyrille Feudjio,
Alkan G\"oktug and Ernest Fokou\'e
- Abstract要約: 我々はMel Frequency Cepstral Coefficient (MFCC)と比較して離散ウェーブレット変換(DWT)の性能について検討した。
本研究で導入された DWT (db4) 特徴抽出と, 平均精度83.96% となる線形支持ベクトルマシンの組み合わせにより, 最適識別システムを構築した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Facing the diversity and growth of the musical field nowadays, the search for
precise songs becomes more and more complex. The identity of the singer
facilitates this search. In this project, we focus on the problem of
identifying the singer by using different methods for feature extraction.
Particularly, we introduce the Discrete Wavelet Transform (DWT) for this
purpose. To the best of our knowledge, DWT has never been used this way before
in the context of singer identification. This process consists of three crucial
parts. First, the vocal signal is separated from the background music by using
the Robust Principal Component Analysis (RPCA). Second, features from the
obtained vocal signal are extracted. Here, the goal is to study the performance
of the Discrete Wavelet Transform (DWT) in comparison to the Mel Frequency
Cepstral Coefficient (MFCC) which is the most used technique in audio signals.
Finally, we proceed with the identification of the singer where two methods
have experimented: the Support Vector Machine (SVM), and the Gaussian Mixture
Model (GMM). We conclude that, for a dataset of 4 singers and 200 songs, the
best identification system consists of the DWT (db4) feature extraction
introduced in this work combined with a linear support vector machine for
identification resulting in a mean accuracy of 83.96%.
- Abstract(参考訳): 最近の音楽分野の多様性と成長に直面すると、正確な楽曲の検索はますます複雑になる。
歌手のアイデンティティは、この検索を促進します。
本稿では,特徴抽出のための異なる手法を用いて,歌手を識別する問題に焦点をあてる。
特に,この目的のために離散ウェーブレット変換(DWT)を導入する。
私達の知識のベストに、DWTは歌手の同一証明の文脈で前にこの方法で使用されませんでした。
この過程は3つの重要な部分からなる。
まず、ロバスト主成分分析(RPCA)を使用して、ボーカル信号をバックグラウンド音楽から分離します。
次に、得られた音声信号から特徴を抽出する。
ここでの目標は、オーディオ信号で最も一般的な技術であるMel frequency Cepstral Coefficient(MFCC)と比較して、離散ウェーブレット変換(DWT)のパフォーマンスを研究することです。
最後に、2つの方法が実験された歌手の識別を進めます:サポートベクトルマシン(SVM)とガウス混合モデル(GMM)。
本研究で紹介したDWT(db4)の特徴抽出と,平均精度83.96%の線形サポートベクターマシンを組み合わせることで,歌手4人,歌200人を対象に,最適な識別システムが構築されていると結論づけた。
関連論文リスト
- Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - Spectral Mapping of Singing Voices: U-Net-Assisted Vocal Segmentation [0.0]
本研究では,音楽スペクトログラムから発声成分を分離する手法を提案する。
我々は、短い時間フーリエ変換(STFT)を用いて、詳細な周波数時間スペクトログラムに音声波を抽出する。
我々は,歌唱音声成分を正確に分析・抽出することを目的とした,スペクトル画像のセグメント化のためのUNetニューラルネットワークを実装した。
論文 参考訳(メタデータ) (2024-05-30T13:47:53Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - Late multimodal fusion for image and audio music transcription [0.0]
マルチモーダル画像とオーディオ音楽の書き起こしは、画像とオーディオのモダリティによって伝達される情報を効果的に組み合わせるという課題を含む。
エンドツーエンドのOMRシステムとAMTシステムに関する仮説を,初めてマージするために,4つの組み合わせのアプローチについて検討した。
4つの戦略のうちの2つは、対応する単調な標準認識フレームワークを著しく改善することを検討した。
論文 参考訳(メタデータ) (2022-04-06T20:00:33Z) - TONet: Tone-Octave Network for Singing Melody Extraction from Polyphonic
Music [43.17623332544677]
TONetは、トーンとオクターブの両方の知覚を改善するプラグアンドプレイモデルである。
本稿では,高調波を明示的にグループ化する改良された入力表現Tone-CFPを提案する。
第3に,最終的なサリエンス特徴写像を改善するために,トーンオクターブ融合機構を提案する。
論文 参考訳(メタデータ) (2022-02-02T10:55:48Z) - Automatic DJ Transitions with Differentiable Audio Effects and
Generative Adversarial Networks [30.480360404811197]
Disc Jockey (DJ) の中心的なタスクは、隣接するトラック間のシームレスな遷移を伴うミューシックのミックスセットを作成することである。
本稿では,実世界のDJミキシングから学習することで,生成的敵対ネットワークを用いて楽曲遷移を生成するデータ駆動型アプローチについて検討する。
論文 参考訳(メタデータ) (2021-10-13T06:25:52Z) - Diverse Knowledge Distillation for End-to-End Person Search [81.4926655119318]
人物検索は、画像ギャラリーから特定の人物をローカライズし識別することを目的としている。
最近の手法は2つのグループ、すなわち2段階とエンドツーエンドのアプローチに分類できる。
ボトルネックを解消するために、多様な知識蒸留を備えたシンプルで強力なエンドツーエンドネットワークを提案します。
論文 参考訳(メタデータ) (2020-12-21T09:04:27Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - On Transfer Learning of Traditional Frequency and Time Domain Features
in Turning [1.0965065178451106]
我々は従来の信号処理ツールを用いて、回転実験から得られた加速度計信号のチャタを識別する。
タグ付けされた信号は、分類器の訓練に使用される。
その結果、フーリエスペクトルから抽出した特徴は、分類器を訓練し、同じ切断構成からデータをテストする際に最も有益であることがわかった。
論文 参考訳(メタデータ) (2020-08-28T14:47:57Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。