論文の概要、ライセンス

# (参考訳) 離散ウェーブレット変換を用いた特徴抽出のためのシンガー識別の予測精度向上 [全文訳有]

Boosting the Predictive Accurary of Singer Identification Using Discrete Wavelet Transform For Feature Extraction ( http://arxiv.org/abs/2102.00550v1 )

ライセンス: CC BY 4.0
Victoire Djimna Noyum, Younous Perieukeu Mofenjou, Cyrille Feudjio, Alkan G\"oktug and Ernest Fokou\'e(参考訳) 最近の音楽分野の多様性と成長に直面すると、正確な楽曲の検索はますます複雑になる。 歌手のアイデンティティは、この検索を促進します。 本稿では,特徴抽出のための異なる手法を用いて,歌手を識別する問題に焦点をあてる。 特に,この目的のために離散ウェーブレット変換(DWT)を導入する。 私達の知識のベストに、DWTは歌手の同一証明の文脈で前にこの方法で使用されませんでした。 この過程は3つの重要な部分からなる。 まず、ロバスト主成分分析(RPCA)を使用して、ボーカル信号をバックグラウンド音楽から分離します。 次に、得られた音声信号から特徴を抽出する。 ここでの目標は、オーディオ信号で最も一般的な技術であるMel frequency Cepstral Coefficient(MFCC)と比較して、離散ウェーブレット変換(DWT)のパフォーマンスを研究することです。 最後に、2つの方法が実験された歌手の識別を進めます:サポートベクトルマシン(SVM)とガウス混合モデル(GMM)。 本研究で紹介したDWT(db4)の特徴抽出と,平均精度83.96%の線形サポートベクターマシンを組み合わせることで,歌手4人,歌200人を対象に,最適な識別システムが構築されていると結論づけた。

Facing the diversity and growth of the musical field nowadays, the search for precise songs becomes more and more complex. The identity of the singer facilitates this search. In this project, we focus on the problem of identifying the singer by using different methods for feature extraction. Particularly, we introduce the Discrete Wavelet Transform (DWT) for this purpose. To the best of our knowledge, DWT has never been used this way before in the context of singer identification. This process consists of three crucial parts. First, the vocal signal is separated from the background music by using the Robust Principal Component Analysis (RPCA). Second, features from the obtained vocal signal are extracted. Here, the goal is to study the performance of the Discrete Wavelet Transform (DWT) in comparison to the Mel Frequency Cepstral Coefficient (MFCC) which is the most used technique in audio signals. Finally, we proceed with the identification of the singer where two methods have experimented: the Support Vector Machine (SVM), and the Gaussian Mixture Model (GMM). We conclude that, for a dataset of 4 singers and 200 songs, the best identification system consists of the DWT (db4) feature extraction introduced in this work combined with a linear support vector machine for identification resulting in a mean accuracy of 83.96%.
公開日: Sun, 31 Jan 2021 21:58:55 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
1 2 0 2 n a J 1 2 0 2 n a J 0.85
1 3 ] D S . 1 3 ] D S。 0.81
s c [ 1 v 0 5 5 0 0 sc [ 1 v 0 5 5 0 0 0.68
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
Boosting the Predictive Accurary of Singer Identification Using Discrete Wavelet Transform For Feature Extraction Victoire Djimna Noyuma,ࢩ, Younous Perieukeu Mofenjoua, Cyrille Feudjioa, Alkan Göktugb and Ernest Fokoué c 特徴抽出のための離散ウェーブレット変換を用いたシンガー同定の予測精度の増強 : Victoire Djimna Noyuma, ^, Younous Perieukeu Mofenjoua, Cyrille Feudjioa, Alkan Göktugb, Ernest Fokoué c 0.75
aSchool of Mathematical Sciences, African Institute for Mathematical Sciences, Crystal Garden, Limbe bSchool of Mathematical Sciences, ETH Zurich, Rämistrasse 101, 8092 Zurich, Switzerland cSchool of Mathematical Sciences, Rochester Institute of Technology, Rochester, NY 14623 aSchool of Mathematical Sciences, African Institute for Mathematical Sciences, Crystal Garden, Limbe bSchool of Mathematical Sciences, ETH Zurich, Rämistrasse 101, 8092 Zurich, Swiss cSchool of Mathematical Sciences, Rochester Institute of Technology, Rochester, NY 14623 0.85
A R T I C L E I N F O R T I C L E I N F O 0.76
Abstract Keywords: DWT Singer Identification RPCA SVM GMM 概要 キーワード:DWT Singer Identification RPCA SVM GMM 0.68
Facing the diversity and growth of the musical field nowadays, the search for precise songs becomes more and more complex. 最近の音楽分野の多様性と成長に直面すると、正確な楽曲の検索はますます複雑になる。 0.68
The identity of the singer facilitates this search. 歌手のアイデンティティは、この検索を促進します。 0.64
In this project, we focus on the problem of identifying the singer by using different methods for feature extraction. 本稿では,特徴抽出のための異なる手法を用いて,歌手を識別する問題に焦点をあてる。 0.74
Particularly, we introduce the Discrete Wavelet Transform (DWT) for this purpose. 特に,この目的のために離散ウェーブレット変換(DWT)を導入する。 0.81
To the best of our knowledge, DWT has never been used this way before in the context of singer identification. 私達の知識のベストに、DWTは歌手の同一証明の文脈で前にこの方法で使用されませんでした。 0.70
This process consists of three crucial parts. この過程は3つの重要な部分からなる。 0.70
First, the vocal signal is separated from the background music by using the Robust Principal Component Analysis (RPCA). まず、ロバスト主成分分析(RPCA)を使用して、ボーカル信号をバックグラウンド音楽から分離します。 0.67
Second, features from the obtained vocal signal are extracted. 次に、得られた音声信号から特徴を抽出する。 0.68
Here, the goal is to study the performance of the Discrete Wavelet Transform (DWT) in comparison to the Mel Frequency Cepstral Coefficient (MFCC) which is the most used technique in audio signals. ここでの目標は、オーディオ信号で最も一般的な技術であるMel frequency Cepstral Coefficient(MFCC)と比較して、離散ウェーブレット変換(DWT)のパフォーマンスを研究することです。 0.75
Finally, we proceed with the identification of the singer where two methods have experimented: the Support Vector Machine (SVM), and the Gaussian Mixture Model (GMM). 最後に、2つの方法が実験された歌手の識別を進めます:サポートベクトルマシン(SVM)とガウス混合モデル(GMM)。 0.71
We conclude that, for a dataset of 4 singers and 200 songs, the best identification system consists of the DWT (db4) feature extraction introduced in this work combined with a linear support vector machine for identification resulting in a mean accuracy of 83.96%. 本研究で紹介したDWT(db4)の特徴抽出と,平均精度83.96%の線形サポートベクターマシンを組み合わせることで,歌手4人,歌200人を対象に,最適な識別システムが構築されていると結論づけた。 0.82
1. Introduction Music is a universal art form and cultural activity which can have several effects on the listener depending on the intention of the artist as well on the state of mind of the listener. 1. はじめに 音楽は、アーティストの意図だけでなく、リスナーの心の状態に応じてリスナーにいくつかの効果をもたらすことができる普遍的な芸術形態と文化活動です。 0.73
Hence, with music, it is possible to express critics against politics or society, mobilize people for a course or to point out feelings arising from love, happiness, sadness, or loneliness. したがって、音楽では、政治や社会に対して批評家を表現したり、コースのために人々を動員したり、愛、幸福、悲しみ、孤独から生じる感情を指摘することができます。 0.67
With the increasing possibilities to access and to share art, the world of music is becoming more and more vast and diverse. アートへのアクセスや共有の可能性が高まっている中、音楽の世界はますます広大で多様なものになりつつある。 0.72
Query fast through this world and collecting precise information is a challenge data scientists face today. この世界に素早く問い合わせて正確な情報を集めることは、今日のデータサイエンティストが直面する課題だ。
訳抜け防止モード: この世界を高速にクエリし 正確な情報を収集する データサイエンティストが直面する課題です
0.74
In this sense, by listening to a song, one could develop interest in the biography of the artist and may want to access other songs from this artist. この意味では、歌を聴くことによって、アーティストの伝記に興味を抱かせることができ、このアーティストの他の曲にアクセスしたいかもしれない。 0.72
This issue on which this project is based on is known as the identification of the singer. このプロジェクトがベースとなっているこの問題は、歌手の識別として知られている。 0.74
The identification of the singer is done in three phases: the separation of the singer’s voice from the background music, the feature extraction and the identification process using the features extracted from the vocal signal obtained from the separation procedure. 歌手の識別は、バックグラウンド音楽から歌手の声の分離、特徴抽出、分離手順から得られた音声信号から抽出された特徴を使用して識別プロセスという3つのフェーズで行われます。 0.75
2. Background A great deal of research has been done in the field of singer identification. 2. 背景 歌手の識別の分野では、多くの研究が行われています。 0.80
In 2002, (Liu and Huang, 2002) proposed a singer identification technique for the classification of MP3 musical objects according to their content. 2002年、(Liu and Huang, 2002)はMP3の楽曲を内容に応じて分類するための歌手識別手法を提案した。 0.80
They used phoneme segmentation for signal separation. 彼らは信号分離に音素セグメンテーションを使った。 0.63
Unfortunately, the signal of the singer’s voice at the output of this method still contains a lot of background music (noise) which make the singer identification difficult. 残念ながら、このメソッドの出力時の歌手の声の信号には、歌手の識別が困難になる多くの背景音楽(ノイズ)がまだ含まれています。 0.78
 This document is the results of the research project funded by AIMS CAMEROON with the help of MASTERCARD Foundation. この文書は、MASTERCARD Foundationの助けを借りてAIMS CAMEROONが資金提供した研究プロジェクトの結果です。 0.76
In this work, we show that Discrete Wavelet Transform is the best method for feature extraction in vocal signals. 本研究では,離散ウェーブレット変換が音声信号の特徴抽出に最適な方法であることを示す。 0.81
ࢩCorresponding author victoire.djimna@aims -cameroon.org (V.D. 【対応作家】 victoire.djimna@aims -cameroon.org (V.D.) 0.51
Noyum); younous.mofenjou@aim s-cameroon.org (Y.P. noyum); younous.mofenjou@aim s-cameroon.org (Y.P。 0.66
Mofenjou); cyrille.feudjio@aims -cameroon.org (C. Feudjio); alkang@aims-cameroon .org (A. Göktug); epfeqa@rit.edu (.E.F. ) Mofenjou); cyrille.feudjio@aims -cameroon.org (C.Feudjio); alkang@aims-cameroon .org (A.Göktug); epfeqa@rit.edu (.E.F。 0.74
ORCID(s): 0000-0002-0118-3668 (V.D. ORCID:0000-0002-0118 -3668 (V.D。 0.71
Noyum) Victoire Djimna et al. ノヤム) Victoire Djimna et al 0.57
: Preprint submitted to Elsevier :エルセヴィエに提出されたプレプリント 0.49
Page 1 of 17 17ページ。 0.51
英語(論文から抽出)日本語訳スコア
In 2004, a spectrum-based method of identifying the singer, proposed by (Bartsch and Wakefield, 2004), worked well only for ideal cases that contained audio samples with the singer’s voice only. 2004年、(Bartsch and Wakefield, 2004)によって提案されたスペクトルベースの歌手を識別する方法は、歌手の声のみのオーディオサンプルを含む理想的なケースでのみうまく機能しました。 0.83
The test set accuracy was 70-80%. テストセットの精度は70-80%であった。 0.67
In the ”Identification of the singer based on vocal and instrumental models” proposed by (Maddage et al., 2004). Maddage et al., 2004)によって提案された「ボーカルモデルとインストゥルメンタルモデルに基づく歌手の識別」。 0.73
in the same year, the singer was identified using both low-level characteristics and knowledge of musical structure. 同年、歌手は低レベルの特徴と音楽構造に関する知識の両方を用いて同定された。 0.76
Using the dataset with 100 popular songs of solo singers, they obtained an accuracy of over 87%. ソロ歌手の人気の曲100曲のデータセットを使用して、彼らは87%以上の精度を得た。 0.70
However, this method was not suitable for music that was more instrumental than singing. しかし、この方法は歌い方よりも器楽曲に向いていなかった。 0.70
A systematic approach to identify and separate the unvoiced singing voice from the musical accompaniment is proposed by (Hsu and Jang, 2009). 声のない歌声を音楽伴奏から識別・分離するための体系的アプローチが (hsu and jang, 2009) 提案されている。 0.73
For the separation of the singer’s voice, they used the spectral subtraction method. 歌手の声を分離するために、彼らはスペクトルサブトラクション法を使用した。 0.71
This method follows the framework of Computer Auditory Scene Analysis (CASA) which includes the segmentation and clustering steps. この方法は、セグメンテーションおよびクラスタリングステップを含むComputer Auditory Scene Analysis (CASA)のフレームワークに従います。 0.79
This method considerably improved the clarity of the singing voice signal but was not always sufficient because, during clustering, a lot of information is lost. この方法は歌唱音声信号の明瞭度を大幅に向上させるが,クラスタリング中に多くの情報が失われるため,必ずしも十分ではない。 0.81
To solve the problem of identifying the singer based on the acoustic variables of the singer’s voice, (Yang, 2016) used the Gaussian Mixture Method (GMM) and Support Vector Machine (SVM) in 2016. 歌手の声の音響変数に基づいて歌手を識別するという問題を解決するために、(Yang、2016)は、2016年にガウス混合法(GMM)とサポートベクトルマシン(SVM)を使用しました。 0.79
He obtained accuracies of 96.42% and 81.23% with a dataset of hundred (100) songs of ten (10) singers. 彼は10人の歌手の100曲(100曲)のデータセットで96.42%と81.23%のアキュラシーを得た。 0.70
For signal separation, he used Robust Principal Component Analysis (RPCA) which is an improved version of Principal Component Analysis (PCA) and gives a better result than NMF. 信号分離には、主成分分析(PCA)の改良版であるRobust principal Component Analysis(RPCA)を使用し、NMFよりも優れた結果を得た。 0.85
For feature extraction, he used Mel-Frequency Cepstral Coefficient (MFCC). 特徴抽出にはMel-Frequency Cepstral Coefficient (MFCC) を用いた。 0.85
In 2017, (Xing, 2017) proposed an effective system of singer identification with human voice separated from original music. 2017年、(xing, 2017)は、人間の声をオリジナル音楽から分離した効果的な歌手識別システムを提案した。 0.74
He used first, Robust Principal Component Analysis (RPCA) to music separation with its high performance. 彼はまず、その高性能で音楽分離にロバスト主成分分析(RPCA)を使用しました。 0.76
After the clear enough human voices are extracted, the Linear Predictive Coding (LPC) method was chosen as the experimental method for feature extraction. 十分な人間の声を抽出した後,特徴抽出の実験手法として線形予測符号化法(LPC)が選択された。 0.80
Finally, the singer would be identified by Gaussian Mixture Model (GMM) with 63.6% of accuracy in a dataset of 100 singers. 最後に、歌手は100人の歌手のデータセットで63.6%の精度でガウス混合モデル(GMM)によって識別される。 0.74
In 2019, The work of (NAMEIRAKPAM et al., 2019) had implemented discret wavelet transform (DWT) as a preprocessing step (denoising) prior to feature extraction to investigate the performance of singer’s identification with and without DWT. 2019年、(NAMEIRAKPAM et al., 2019)の作品は、DWTの有無にかかわらず歌手の識別のパフォーマンスを調査するために、特徴抽出の前に前処理ステップ(否定)としてディスクレットウェーブレット変換(DWT)を実装しました。 0.66
It is found that after applying wavelet transform the accuracy result decreases. その結果,ウェーブレット変換を施すと精度が低下することがわかった。 0.66
However, the decrease in percentage accuracy is minimal (5.79%, 0.72% and 0.72% for 8, 16 and 32 Gaussians respectively). しかし、パーセンテージの精度の低下は最小限である(それぞれ8,16,32ガウスに対して5.79%、0.72%、0.72%)。
訳抜け防止モード: しかし、パーセンテージの精度の低下は最小 (5.79 %) である。 0.72 %, 0.72 % for 8, 16 and 32 Gaussians)。
0.71
While the computational time is drastically reduced. 計算時間は大幅に削減される。 0.75
3. Problem Statement and Contribution of this Study 3. 本研究の問題点と貢献 0.78
The recent and improved research presented above shows that singer’s identification using DWT for pre-processing and MFCC for feature extraction is done in a much reduced time, but the accuracy decreases compared to the results obtained without DWT. 上記の最近の改良研究では、前処理にDWT、特徴抽出にMFCCを使用した歌手の識別が大幅に短縮された時間で行われることが示されていますが、DWTなしで得られた結果と比較して精度が低下します。 0.61
Unfortunately, MFCC uses the Fast Fourier Transform (FFT) for the change from the time domain to the frequency domain. 残念ながら、MFCCは時間領域から周波数領域への変更にFFT(Fast Fourier Transform)を使用している。 0.83
FFT does not retain the time domain information and results in loss of data during the change. FFTは時間領域情報を保持せず、変更中にデータの損失を引き起こします。 0.77
In this study, we will use DWT for all the feature extraction process to see if it improves feature extraction more than MFCC because this method retains time-domain information by its ability to operate in both in the time and frequency domain simultaneously. 本研究では,本手法が時間領域情報を保持し,時間領域と周波数領域の両方を同時に操作できるため,mfccよりも機能抽出が改善されるかどうかを確認するために,特徴抽出プロセスすべてにdwtを用いる。 0.79
The Robust Principal Component Analysis (RPCA) will be used to separate the singer’s voice from the background music. ロバスト主成分分析(RPCA)は、歌手の声をバックグラウンド音楽から分離するために使用されます。 0.74
To identify the singer, we will apply both the Support Vector Machine (SVM) and the Gaussian Mixture Model (GMM). シンガーを識別するために、SVM(Support Vector Machine)とGMM(Gaussian Mixture Model)の両方を適用する。 0.71
4. Study Organization The objective of this study is to build a model allowing the identification of the speaker using DWT for feature extraction. 4. 研究組織 本研究の目的は,特徴抽出のためのDWTを用いた話者識別モデルを構築することである。 0.80
To achieve this goal, we present Robust Principal Component Analysis (RPCA) as the best technique for separating the singer’s voice and its methodology, followed by the description and process of feature extraction using Discrete Wavelet Transform (DWT). この目的を達成するため,歌唱者の声と方法論を分離する最良の手法としてロバスト主成分分析(RPCA)を提案し,続いて離散ウェーブレット変換(DWT)を用いた特徴抽出の記述とプロセスについて述べる。 0.83
Then, we explain the learning techniques such as the Support Vector Machine (SVM) and the Gaussian Mixture Model (GMM) for singer identification. 次に,歌手識別のための支援ベクトルマシン (SVM) やガウス混合モデル (GMM) などの学習手法について説明する。 0.83
Finally, we present the experiments and results. 最後に,実験と結果について述べる。 0.76
We conclude our research and propose recommendations for future work. 我々は研究を締めくくり、今後の研究を推奨する。 0.65
5. Singing Voice Separation Technique: RPCA 5. 歌声分離技術:RPCA 0.70
Propsed by (Candès et al., 2011), Robust Principal Component Analysis (RPCA) is a modification of the Principal Component Analysis (PCA) method. Candès et al., 2011で提案されたRobust principal Component Analysis (RPCA)は、主成分分析(PCA)法の修正である。 0.73
RPCA has been proven to perform well for noise-corrupted data compared to RPCAは、ノイズ破損データに対してよく機能することが証明されています。 0.52
Victoire Djimna et al. Victoire Djimna et al 0.65
: Preprint submitted to Elsevier :エルセヴィエに提出されたプレプリント 0.49
Page 2 of 17 17ページ2ページ。 0.77
英語(論文から抽出)日本語訳スコア
PCA. The idea of RPCA is to decompose a  ( ࢠ Ó×) data matrix into two other matrices,  and , as follows: PCA。 RPCAの考え方は、以下の2つの他の行列、すなわち、以下の2つの行列にデータ行列を分解することである。 0.74
 =  +  (1) In the case of sound, ( ࢠ Ó×) is the low-rank matrix corresponding to the background music and ( ࢠ Ó×) is the sparse matrix characterizing the singing voice.  =  +  1) 音の場合には、背景音楽に対応する低ランク行列であり、歌声を特徴づけるスパース行列である。
訳抜け防止モード:  =  +  (1 ) 音の場合、音は背景音楽に対応する低位行列である。 と、その歌声を特徴づけるスパース・マトリクス (sparse matrix) である。
0.73
Indeed, in music, the part of noise incorporated (background music) often varies more slowly with time compared to the singer’s voice. 実際、音楽では、ノイズが組み込まれている部分(バックグラウンド音楽)は、歌手の声よりも時間とともに変化することが多い。 0.78
In other words, the singer’s own voice is likely to be more non-stationary than the noise. 言い換えれば、歌手自身の声はノイズよりも非定常的である可能性が高い。 0.67
This phenomenon can be easily observed by analyzing the spectrographs in Figure 1. この現象は図1の分光器を解析することによって容易に観察できる。 0.73
The spectral structure of pure noise is usually fixed or slowly varying, while the vocal part changes rapidly over time. 純粋な雑音のスペクトル構造は通常固定またはゆっくりと変化し、声帯は時間とともに急速に変化する。 0.84
This hypothesis implies that the noise part appears to be of low-rank, while the pure voice part is sparse (Hung et al., 2018). この仮説は、ノイズ部分は低ランクのように見えるが、純粋な音声部分はスパースであることを示している(Hung et al., 2018)。 0.66
Therefore, extracting the sparse component from the music signal matrix tends to separate the background music from the voice of the speaker. したがって、音楽信号マトリックスからスパース成分を抽出すると、背景音楽をスピーカーの声から分離する傾向があります。 0.74
This separation is made by convex optimization which can be written as (Candès et al., 2011): この分離は (candès et al., 2011) と書くことができる凸最適化によって行われる。 0.83
minimizeߠߠࢩ + ߠߠ1 最小 + 1 である。 0.47
where  > 0 is a trade-off parameter between the rank of  and the sparsity of ,ߠ.ߠࢩ is the nuclear norm representing the sum of singular values of matrix entries andߠ.ߠ1 is the 1-norm representing the sum of absolute values of matrix ここで s > 0 は s のランクと s のスパーシティの間のトレードオフパラメータであり、 s > 0 は行列エントリの特異値の和を表す核ノルムであり、 s.1 は行列の絶対値の和を表す s.1-ノルムである。 0.72
subject to  +  =  , entries (Candès et al., 2011). が対象となります。 エントリー(Candès et al., 2011)。 0.40
(2) To solve the problem given to the equation 2, we use the Augmented Lagrange Multiplier (ALM) method. (2) 方程式2に与えられた問題を解決するために、Augmented Lagrange Multiplier (ALM) 法を用いる。 0.82
The corresponding formula is given by (Candès et al., 2011): あらすじ 対応する式は (Candès et al., 2011) によって与えられる。 0.55
(, ,  , ) =ߠߠࢩ + ߠߠ1 + ,  −  −  +  (, ,  , ) =ߠߠࢩ + ߠߠ1 + ,  −  −  +  0.96
2ߠ −  − ߠ2 2ߠ −  − ߠ2 0.88
 In equation 3,  is a penalty parameter (always positive),  is slack variable matrix,ߠ.ߠ is the Frobenius norm.  等式 3 において、s はペナルティパラメータ (always positive) であり、s はスラック変数行列であり、s はフロベニウスノルムである。
訳抜け防止モード:  方程式 3 において はペナルティパラメータ(常に正)である。 slack 変数行列 (slack variable matrix) はフロベニウスノルム (Frobenius norm) である。
0.79
 ,  −  −  implies the standard trace inproduct. すなわち、標準トレース積(英語版)(standard trace inproduct)である。 0.48
At the end, we obtain two matrices: the low-rank matrix  and 最後に2つの行列を得る: ランクの低い行列 t と t である。 0.56
(3) the sparse matrix  respectively (Candès et al., 2011). (3) スパース行列は、それぞれ (Candès et al., 2011) である。 0.80
(a) Original matrix V (a)オリジナルマトリックスV 0.75
(b) Sparse matrix S (b)スパース行列S 0.74
(c) Low-rank L Figure 1: Example RPCA results for Garou2.mp3: (a) the original matrix, (b) the low-rank matrix, and (c) the sparse matrix. (c) 低ランクL 図1:例 rpca results for garou2.mp3: (a) original matrix, (b) low-rank matrix, (c) sparse matrix。 0.85
To obtain the signals of the background music and the singing voice represented in Figure 2, the Inverse Short-Time Fourier Transform (ISTFT) is performed to return to the temporal domain. 図2に示す背景音楽と歌声の信号を得るために、時間領域に戻るために逆短時間フーリエ変換(ISTFT)が行われます。 0.72
The signal separation process is summarized in Figure 3. 信号分離プロセスを図3にまとめます。 0.73
6. Discret Wavelet Transform (DWT) as a feature extraction technique 6. 特徴抽出手法としての離散ウェーブレット変換(DWT) 0.82
Extraction of acoustic characteristics plays an essential role in the construction of a singer identification system. 歌手識別システムの構築には音響特性の抽出が重要な役割を果たしている。 0.82
The objective is to select variables that have a high inter-label range and low discrimination power within the label. 目的はラベル内で高いラベル間範囲と低い識別力を持つ変数を選択することである。 0.79
The discriminating power of characteristics or sets of characteristics indicates the extent to which they can discriminate between labels. 特性の識別力または特性のセットは、ラベル間で識別できる範囲を示します。 0.68
The selection of characteristics is usually done by examining the discriminative power of the variables. 特性の選択は通常、変数の識別力を調べることによって行われる。 0.85
The performance of a set of features depends on demand. 一連の機能のパフォーマンスは、要求に依存します。 0.71
Thus, designing them for a specific application is the main challenge in building singer identification systems. したがって、特定の用途のためにそれらを設計することは、歌手識別システムを構築するための主な課題です。
訳抜け防止モード: したがって、特定のアプリケーション用に設計する。 歌手の識別システムを構築する上で 一番の課題は
0.63
In this section, we will present the theoretical background of the Discrete Wavelet Transform (DWT) method. 本稿では,離散ウェーブレット変換法(DWT)の理論的背景について述べる。 0.73
DWT is based on dividing the signal into several sub-bands before performing feature extraction. DWTは、特徴抽出を行う前に信号を複数のサブバンドに分割することに基づいています。 0.58
Victoire Djimna et al. Victoire Djimna et al 0.65
: Preprint submitted to Elsevier :エルセヴィエに提出されたプレプリント 0.49
Page 3 of 17 17ページ3頁。 0.76
英語(論文から抽出)日本語訳スコア
(a) Original matrix V (a)オリジナルマトリックスV 0.75
(b) Sparse matrix S (b)スパース行列S 0.74
(c) Low-rank L Figure 2: Example of signal after ISTFT for Garou2.mp3: (a) the original matrix, (b) the low-rank matrix, and (c) the sparse matrix. (c) 低ランクL 図2:Garou2.mp3のためのISTFTの後の信号の例:(a)元のマトリックス、(b)低ランクのマトリックス、および(c)スパースマトリックス。 0.81
Figure 3: Signal separation process (Li and Akagi, 2019) 図3:信号分離プロセス(Li, Akagi, 2019) 0.75
6.1. Introduction of Wavelet Transform (WT) 6.1.1. 6.1. Wavelet Transform (WT) 6.1.1の紹介 0.77
Definition Wavelet Transform (WT) is a very powerful tool for the analysis and classification of time series signals. 定義 Wavelet Transform (WT) は時系列信号の解析と分類のための強力なツールである。 0.80
It is unfortunately not known or popular in the field of data science. 残念ながら、データサイエンスの分野では知られていません。 0.68
This is partly because you need to have some prior knowledge about signal processing, Fourier Transform and a solid mathematics background before you can understand the theory underlying the wavelet transform. これは、ウェーブレット変換の基礎となる理論を理解する前に、信号処理、フーリエ変換、固体数学の背景について事前の知識を持つ必要があるためでもある。 0.75
However, we believe that it is also due to the fact that most books, articles and papers are far too theoretical and do not provide enough practical information illustrating how they could be used. しかし、ほとんどの本や記事や論文があまりにも理論的すぎており、使用方法を示す十分な実用的な情報を提供していないことも原因であると考えている。 0.76
WT has many applications in the analysis of stationary and non-stationary signals. WTは定常信号と非定常信号の分析に多くの応用がある。 0.71
These applications include removing noise from signals, detecting abrupt discontinuities, and compressing large amounts of data (Wang et al., 2013). これらのアプリケーションには、信号からのノイズの除去、突然の不連続の検出、大量のデータ圧縮が含まれる(wang et al., 2013)。 0.67
6.1.2. Principle of WT 6.1.2. WTの原則 0.65
WT decomposes a signal into a group of constituent signals, called wavelets, each having a well-defined dominant frequency, similar to the Fourier Transform (FT) in which the representation of a signal is made by sine and cosine functions of unlimited duration. WTは信号をウェーブレット(Wavelet)と呼ばれる構成信号のグループに分解し、信号の表現が無期限の正弦関数と余弦関数によって作られるフーリエ変換(FT)と同様に、それぞれよく定義された支配周波数を持つ。 0.85
In WT, wavelets are transient functions of short duration, i.e. WTでは、ウェーブレットは短周期の過渡関数である。 0.64
of limited duration centered around a specific time. 特定の時間に集中した 限られた期間です 0.75
The drawback of FT is that, as the time domain transitions to the frequency domain, information about what is happening in the time domain is lost. FTの欠点は、タイムドメインが周波数ドメインに遷移すると、タイムドメインで何が起こっているかに関する情報が失われることである。 0.79
From the observation of the frequency spectrum obtained using FT, it is easy to distinguish the frequency content of the analyzed signal, but it is not possible to deduce in what time the signal components of the frequency spectrum will appear or disappear. FTを用いて得られた周波数スペクトルの観測から、解析された信号の周波数内容の識別が容易であるが、周波数スペクトルの信号成分が出現または消失する時刻を推定することは不可能である。 0.91
Unlike FT, WT allows both time-domain and frequency-domain analysis, providing information on the evolution of the frequency content of a signal over time (Montejo and Suárez, 2007). FTとは異なり、WTは時間領域と周波数領域の両方の分析を可能にし、信号の周波数内容の時間的進化に関する情報を提供する(Montejo and Suárez, 2007)。 0.70
There are many families of WT but the two principal are: WTには多くの家系があるが、主な2つは以下の通りである。 0.55
• Continuous Wavelet Transform (CWT): The values of the scaling and translation factors are continuous, which •連続ウェーブレット変換(CWT):スケーリングおよび変換係数の値は連続的である。 0.76
Victoire Djimna et al. Victoire Djimna et al 0.65
: Preprint submitted to Elsevier :エルセヴィエに提出されたプレプリント 0.49
Page 4 of 17 17ページ4頁。 0.76
英語(論文から抽出)日本語訳スコア
means that there can be an infinite amount of wavelets. 無限の量のウェーブレットがあるということです 0.59
It performs a multi-resolution analysis by contraction and dilatation of the wavelet functions (Aggarwal et al., 2011). ウェーブレット関数(Aggarwal et al., 2011)の収縮と拡張による多分解能解析を行う。 0.76
Its different sub-families are: サブファミリーは以下の通り。 0.57
– Mexican hat wavelet – Morlet wavelet – Complex Gaussian wavelets – Gaussian -メキシコ・ハット・ウェーブレット - モーレット・ウェーブレット - 複雑なガウシアン・ウェーブレット - ガウシアン 0.54
• Discrete Wavelet Transformations (DWT): It uses filter banks for the construction of the multi-resolution timefrequency plane and special wavelet filters for the analysis and reconstruction of signals (Merry and Steinbuch, 2005). •離散ウェーブレット変換(dwt):マルチレゾリューション時間周波数平面の構築にはフィルタバンクを使用し、信号の解析と再構成には特別なウェーブレットフィルタを用いる(merry and steinbuch, 2005)。 0.85
Its different sub-families are: サブファミリーは以下の通り。 0.57
– Daubechies – Symlets – Coiflets – Biorthogonal -Daubechies – Symlets – Coiflets – Biorthogonal 0.79
6.2. Discrete Wavelet Transformations (DWT) 6.2. 離散ウェーブレット変換(DWT) 0.77
DWT is defined by the following equation 4: DWT は次の式 4 で定義されます。 0.76
 (, ) =ࢣ  (, ) =ࢣ 0.96
()2−  2 (2− − ), ()2−  2 (2− − ), 0.96
(4) where () is a time function with finite energy and fast decay called the mother wavelet. (4) すなわち、母ウェーブレット(英語版)と呼ばれる有限エネルギーと速い崩壊を持つ時間関数である。 0.79
 (, ) represents the wavelet coefficients, where  denotes location, and  denotes level. s はウェーブレット係数を表し、s は位置を表し、s はレベルを表す。 0.46
DWT has four families: (1) Daubechies; (2) Symlets; (3) Coiflets; (4) Biorthogonal. DWTには、(1)Daubechies; (2) Symlets; (3) Coiflets; (4) Biorthogonalの4つのファミリーがある。 0.81
Each type has a different shape, smoothness, and compactness and is useful for a different application. それぞれの型は異なる形状、滑らかさ、コンパクト性を持ち、異なる用途に有用である。 0.81
Since a wavelet has to satisfy only two mathematical conditions which are the so-called normalization and orthogonalization constraints, it is easy to generate a new type of wavelet. ウェーブレットは、いわゆる正規化と直交化の制約である2つの数学的条件しか満たさないので、新しいタイプのウェーブレットを生成することは容易である。
訳抜け防止モード: ウェーブレットがあるので 正規化制約と直交化制約という2つの数学的条件のみを満たす 新しいタイプのウェーブレットを 生成するのは簡単です
0.76
DWT contains three major steps: DWTには3つの大きなステップがある。 0.47
 1. Wavelet Threshold De-Noising  1. Wavelet Threshold De-Noising 0.83
In general, after separation of the voice signal, this signal still contains some small noises. 一般に、音声信号の分離後、この信号はいくつかの小さなノイズを含む。 0.79
The elimination of this noise is very important for the accuracy of the characteristics that will be extracted from the signal. このノイズの除去は信号から抽出される特性の正確性にとって非常に重要である。 0.79
Indeed, a singer has many different sounds and therefore, if the vocal signal extracted from these sounds contains noise, the identification will not be optimal. 実際、歌手は多くの異なる音を持っているため、これらの音から抽出された発声信号が雑音を含む場合、その識別は最適ではない。 0.67
Donoho has introduced the use of wavelets to denoise the signals. Donohoは信号を消すためにウェーブレットの使用を導入しました。 0.61
He developed linear denoising for noises composed of high-frequency components and non-linear denoising (wavelet shrinkage) for noises also existing in the low frequencies (Donoho, 1995). 低周波にも存在するノイズに対して、高周波成分と非線形デノイジング(ウェーブレット収縮)からなるノイズのリニアデノイジングを開発した(Donoho, 1995)。 0.83
Schremmer et al. Schremmer et al。 0.80
have developed software for real-time wavelet noise canceling of audio signals. 音声信号のリアルタイムウェーブレットノイズキャンセリングのためのソフトウェアを開発しました。 0.77
Noise suppression is achieved by using soft or hard thresholding of the DWT of the coefficients (Schremmer et al., 2001). 音の抑制は係数のDWTのソフトあるいはハードしきい値を用いて行う(Schremmer et al., 2001)。 0.74
The success criterion for noise suppression is the difference between the original signal and the denoised signal. 雑音抑圧の成功基準は、元の信号と除音信号との差である。 0.75
A new speech enhancement system based on a wavelet denoising framework has been introduced by Fu Qiang and Wan Eric. Fu Qiang氏とWan Eric氏によって、ウェーブレットデノイジングフレームワークに基づく新しい音声強調システムが導入されました。 0.78
In this system, noisy speech is first pre-processed using a generalized spectral subtraction method to initially reduce the noise level with negligible speech distortion. 本システムでは, 一般化スペクトル減算法を用いて雑音を前処理し, まず, 雑音レベルを無視可能な音声歪みで低減する。 0.76
Then, the decomposition of the resulting speech signal into critical bands is done using the perceptual wavelet (Fu and Wan, 2003). そして、得られた音声信号の臨界帯域への分解を知覚ウェーブレットを用いて行う(Fu, Wan, 2003)。 0.75
Denoising using DWT is developed in (Saric et al., 2005) where the threshold is given by the equation: DWTを用いたDenoisingは、方程式によって閾値が与えられる(Saric et al., 2005)。
訳抜け防止モード: DWTを用いたDenoising The is developed in (Saric et al , 2005 ) where the threshold is given by the equation :
0.93
Ý(2 log ),  =  ~(2log ~)  =  0.65
(5) where  is the wavelet threshold,  is the standard deviation of the noise, and  is the length of the sample signal. (5) s がウェーブレットしきい値である場合、s はノイズの標準偏差であり、s はサンプル信号の長さである。 0.78
Victoire Djimna et al. Victoire Djimna et al 0.65
: Preprint submitted to Elsevier :エルセヴィエに提出されたプレプリント 0.49
Page 5 of 17 17ページ5ページ。 0.77
英語(論文から抽出)日本語訳スコア
2. Wavelet Decomposition 2. ウェーブレット分解 0.76
As illustrated in Figure 4, DWT breaks down a signal into several scales representing different frequency bands. 図4に示すように、DWTは信号を異なる周波数帯域を表す複数のスケールに分解します。 0.78
Short-duration wavelets are used to extract information from the high-frequency components. 短デュレーションウェーブレットは高周波成分から情報を抽出するために使用される。 0.62
Long-duration wavelets can be used to extract information from low frequencies (Chang et al., 2000). 長周期ウェーブレットは低周波数から情報を抽出するのに使うことができる(Chang et al., 2000)。 0.68
The process goes on under multiple levels as a subsequent coefficient from the first level within the approximation. この過程は、近似中の最初のレベルから続く係数として、複数のレベルで続く。 0.76
At each process, the frequency resolution is doubled using the filters while decomposing and reducing the time complexity to half. 各プロセスでは、時間複雑性を半分に減らしながら、フィルタを使用して周波数分解能を倍にする。
訳抜け防止モード: 各プロセスで周波数分解能は2倍になる 時間の複雑さを半分に減らしながら フィルタを使います
0.85
In the end, we consider all the high-frequency bands (1, 2, 3, 4) and the last low-frequency band (4). 最後に、全ての高周波帯(1,2,3,4)と最後の低周波帯(4)を考える。 0.57
Figure 4: DWT process level four (dwt, (accessed April 22, 2020)) 図4:DWTプロセスレベル4(dwt、2020年4月22日アクセス) 0.72
3. Feature Extraction Multi-resolution analysis (MRA) is used to extract feature vectors from the signal data. 3. 特徴抽出 信号データから特徴ベクトルを抽出するために多分解能解析(MRA)を用いる。 0.80
Very common in vocal signal, time-frequency domain DWT based statistical features for classification include mean average value, standard deviation, and spectral entropy. 音声信号では非常に一般的で、時間周波数領域DWTに基づく分類の統計的特徴には平均値、標準偏差、スペクトルエントロピーが含まれる。
訳抜け防止モード: 音声信号において、時間-周波数領域dwtに基づく分類の統計的特徴は平均平均値を含む。 標準偏差とスペクトルエントロピー
0.82
• Mean average value: it defines the mean of each vector of the sub-bands obtained in the previous step. •平均値:前のステップで取得したサブバンドの各ベクトルの平均を定義します。 0.83
It is given as, それ 与えられたのです 0.66
• Standard deviation: it defines the variance of the signal. •標準偏差:信号のばらつきを定義します。 0.72
It is given by • Power spectral density: it is calculated in two steps: first, by finding the Fast Fourier Transform (FFT) が与えられます。 •パワースペクトル密度:2つのステップで計算される:第一に、高速フーリエ変換(fft)を見つける。 0.67
 () of the time series and then, taking the squared modulus of the FFT coefficients. 時系列と fft 係数の2乗モジュラスを取ることで、その時間列の ~ ( ) を得る。 0.57
 = ࢣ ࢣ =1    = ࢣ ࢣ =1   0.83
 = =1( − )2  = =1( − )2 0.90
  () =  ()2   () =  ()2 0.89
 (6) (7) (8)  (6) (7) (8) 0.85
Page 6 of 17 17ページ6ページ。 0.78
Victoire Djimna et al. Victoire Djimna et al 0.65
: Preprint submitted to Elsevier :エルセヴィエに提出されたプレプリント 0.49
英語(論文から抽出)日本語訳スコア
• Spectral entropy: it is the measure of randomness and the information content of a signal. •スペクトルエントロピー(Spectral Entropy):信号のランダム性と情報量を測定する尺度。 0.74
To calculate the entropy of a given vocal signal, we use the Shannon entropy formula 計算する 与えられた声信号のエントロピー シャノンエントロピー公式を使って 0.61
ࢣ =1  = − ࢣ =1  = − 0.76
 log(2 2  ) log (複数形 logs) 0.44
(9) 7. Learning Techniques: Classification Models (9) 7. 学習技法:分類モデル 0.83
In the world of machine learning, two main areas can be distinguished: supervised learning and unsupervised learning. 機械学習の世界では、教師なし学習と教師なし学習の2つの主な領域が区別できる。 0.66
The main difference between the two lies in the nature of the data and the approaches used to process them. 両者の主な違いは、データの性質とそれらを処理するために使用されるアプローチにあります。 0.77
In this section, we present two learning techniques that are widely used for audio: Support Vector Machine (SVM) and Gaussian Mixture Model (GMM). このセクションでは、オーディオに広く使用されている2つの学習技術を紹介します:サポートベクトルマシン(SVM)とガウス混合モデル(GMM)。 0.84
7.1. Support Vector Machine (SVM) 7.1. Support Vector Machine (SVM) 0.78
Support Vector Machine (SVM) was developed by Cortes and Vapnik in 1995 and improved by Boser, Guyon, and Vapnik in 1998 (Boser et al., 1992); (Vapnik, 1998) which is useful for solving problems of monitoring classification in high dimensions. サポートベクトルマシン(SVM)は1995年にコーテスとヴァプニクによって開発され、1998年にボザー、ギヨン、ヴァプニクによって改良された(Boser et al., 1992); (Vapnik, 1998)。
訳抜け防止モード: Support Vector Machine (SVM) は、1995年に Cortes と Vapnik によって開発された。 そして、1998年にBoser, Guyon, and Vapnikによって改善された(Boser et al ., 1992 ); (Vapnik, 1998 )。 高次元の分類をモニタリングする 問題を解決するのに役立ちます
0.79
The SVM approach searches directly for a plane or surface of separation by an optimization procedure that finds the points that form the boundaries of the classes. SVMアプローチは、クラスの境界を形成する点を見つける最適化手順により、平面または分離面を直接検索する。 0.74
These points are called support vectors. これらの点をサポートベクトルと呼ぶ。 0.72
Besides, the SVM approach uses the kernel method to map the data with a nonlinear transformation to a high-dimensional space and tries to find a separation surface between the two classes in this new space. さらに、SVMアプローチでは、カーネル法を用いて、非線形変換でデータを高次元空間にマッピングし、この新しい空間における2つのクラス間の分離曲面を見つけようとする。 0.81
When we have two labels (classes), we use the binary SVM and in cases with more than two labels, we apply the multi-SVM. 2つのラベル(クラス)がある場合、バイナリSVMを使用し、2つ以上のラベルを持つ場合、マルチSVMを適用します。 0.76
7.1.1. Binary SVM 7.1.1. バイナリSVM 0.61
Binary-SVM is used when the data has exactly two classes. バイナリ-SVMは、データが正確に2つのクラスを持つときに使用される。 0.56
For classification, SVM finds the best hyperplane that separates all data points of one class from those of the other class as illustrated in Figure 5 by the red line. 分類において、SVMは図5に示すように、あるクラスのすべてのデータポイントを他のクラスのものから分離する最良の超平面を見つける。 0.81
The best hyperplane is the one with the largest margin between the classes. 最高の超平面はクラス間の最大のマージンを持つものである。 0.81
Figure 5: SVM graph (svm, (accessed April 19, 2020) 図5:SVMグラフ(svm、2020年4月19日閲覧) 0.80
The hyperplane equation is given by 超平面方程式は与えられる 0.74
)   −  = 0, )   −  = 0, 0.85
where  is the weight and  the bias. ここで、 は重み、 はバイアスである。 0.43
 is an input variable. There are three cases of Binary-SVM: は入力変数である。 Binary-SVMには3つのケースがあります。 0.62
(10) Victoire Djimna et al. (10) Victoire Djimna et al 0.75
: Preprint submitted to Elsevier :エルセヴィエに提出されたプレプリント 0.49
Page 7 of 17 17ページ7頁。 0.79
英語(論文から抽出)日本語訳スコア
1. Hard margin Here, the two classes can be separated linearly (Figure 5). 1. 硬いマージン ここで、2つのクラスを線形に分離することができる(図5)。 0.73
The goal is to maximize 2ߠߠ which is equivalent to minimizingߠߠ. 目的は、最小化と等価な 2 = を最大化することである。 0.65
Hence, the problem can be reformulated to ࢩ = ߠߠ2. したがって、この問題は次のように再定式化することができる。 0.52
We have two constraints: (a)  () −  ࣙ 1,  () = 1 (b)  () −  ࣘ −1,  () = −1 制約は 2 つある: (a) s (a) - s (b) - s (b) = 1 (b) s (b) - s (b) - s (b) = −1 である。
訳抜け防止モード: 制約は 2 つある: ( a ) . . . (a ) . . . . (a ) − . . . . . . .  ( ) = 1 ( b )  ( ) −  ࣘ −1,  ( ) = −1
0.77
We combine these two constraints and get この2つの制約を組み合わせることで 0.72
()( () − ) ࣙ 1, ()( () − ) ࣙ 1, 0.85
  = 1, ..., ,   = 1, ..., , 0.77
where  is the number of samples and  is the label. ここで s はサンプル数、 s はラベル数である。 0.62
So, the optimization problem becomes: そこで最適化問題は次のようになる。 0.65
ࢩ = argminߠߠ2 subject to ()( () − ) ࣙ 1 s = argmin (2 ) {\displaystyle {\beginal {s} (2)} は s (2 ) {\displaystyle {\beginal {1}})} に属する。 0.27
The SVM classifier is given by: SVM分類器は以下の通り。 0.78
2. Soft margin 2. ソフトマージン 0.69
() = sign( . − ) () = sign( . − ) 0.99
(11) This case occurs when the data are not separable in a linear way because there are dots within the margin. (11) このケースは、マージン内に点があるため、データが線形に分離できない場合に発生します。 0.81
Consequently, the loss of function becomes the hinge loss: その結果、機能の喪失はヒンジ損失になります。 0.71
(; , ) = max[0, 1 − ()( () − )],  = 1, ..., . (; , ) = max[0, 1 − ()( () − )],  = 1, ..., . 0.78
(12) Having the hinge loss by equation 12, the expected loss is given by (12) 式12によるヒンジ損失により、予想される損失が与えられる。 0.83
 ࢣ =1   ࢣ =1  0.76
+ ߠߠ2 2, + ߠߠ2 2, 0.87
() = 1  () = 1  0.85
(; , ) (; , ) 0.85
where  is the trade-off increasing the size of the margin and ensuring that the data point is on the correct side of the margin. ここで は、マージンのサイズを増加させ、データポイントがマージンの正しい側にいることを保証するトレードオフである。 0.68
Hence, the optimization problem becomes: したがって、最適化問題は次のようになる。 0.54
 ࢩ = argmin () subject to ()( () − ) ࣙ 1 −   アルグミン (argmin) - アーグミン (argmin) - アーグミン (argmin) - アーグミン (argmin) - アーグミン (argmin) - アーグミン (argmin) - アーグミン (argmin) - アーグミン (argmin) の意。 0.52
3. Nonlinear classification (kernel SVM) 3. 非線形分類(カーネルSVM) 0.86
In Figure 6 a case where the data cannot be separated by a hyperplane is depicted. 図6では、データをハイパープレーンで分離できないケースが描かれています。 0.79
We find a map  ࢼ ()  ()() from the data space to the feature space such that the data are linearly separable in the feature space by applying the so-called “kernel trick": いわゆる「カーネルトリック」を適用することで、データが特徴空間内で線形に分離可能なように、データ空間から特徴空間への写像 s が見つかる。
訳抜け防止モード: 私たちは、データ空間から特徴空間へ、そのデータが特徴空間内で線形に分離可能であるような写像(英語版)を導出する。 カーネルトリック」と呼ばれるsoを適用する。
0.57
(, ) = ()() (, ) = ()() 0.85
(13) Kernel function may be any of the symmetric functions that satisfy the Mercer’s conditions (Brunner et al., 2012). (13) Kernel関数は、Merkerの条件を満たす対称関数のいずれかである可能性があります(Brunner et al., 2012)。 0.84
In the feature space, one can write: 機能スペースでは、次のように記述できます。 0.59
ࢣ =1  = ࢣ =1  = 0.76
()(()) ()(()) 0.85
Victoire Djimna et al. Victoire Djimna et al 0.65
: Preprint submitted to Elsevier :エルセヴィエに提出されたプレプリント 0.49
Page 8 of 17 17ページ8ページ。 0.76
英語(論文から抽出)日本語訳スコア
  (()) =   (()) = 0.85
ࢣ =1 ()(())(()) ࢣ =1 ()(())(()) 0.76
(14) Using 13 in 14, we obtain: (14) 14で13を使用して、我々は取得します。 0.69
So,  (()) = だから。  (()) = 0.73
There are several functions of the SVM kernel. SVMカーネルにはいくつかの機能がある。 0.71
=1 ()( () − )  () =1 ()( () − )  () 0.72
ࢣ  ࢣ =1 ࢣ  ࢣ =1 0.72
()((), ()) ()((), ()) 0.80
 ()((), ()) −   ()((), ()) −  0.83
(a) Polynomial kernel: it is a non-stationary kernel. (a)多項式カーネル:非定常カーネルである。 0.69
The polynomial kernel is well suited for problems where 多項式核は問題によく適しています 0.71
all training data are normalized. すべてのトレーニングデータは正常化されます。 0.57
It is given by equation 15 方程式 15 で与えられる. 0.80
where the slope  is the adjustable parameter,  is the polynomial degree and  is the constant. 傾きが調整可能なパラメータであるところは、s は多項式次数であり、s は定数である。 0.67
The dimension of the feature space vector () for the polynomial kernel of degree  and for the input pattern of dimension  is: 次数の多項式核、および次元の入力パターンに対する特徴空間ベクトルの次元は、次のようになる。
訳抜け防止モード: 次数の多項式核に対する特徴空間ベクトルの次元 (a) の次元 (a) について そして次元の入力パターンは:
0.71
(, ) = (  + ), (, ) = (  + ), 0.85
(15) ( + )! (15) ( + )! 0.85
!! (b) Gaussian kernel: it is an example of radial basis function kernel (RBF). !! (b)ガウスカーネル(Gaussian kernel):放射基底関数カーネル(RBF)の例。 0.78
It is characterized by the equation: 方程式によって特徴付けられる。 0.58
Usually,  = 1 通常は 1 である。 0.82
22 . So, the equation 16 becomes: 22 . したがって、方程式16は次のようになる。 0.63
(, ߰) = [−ߠ − ߰ߠ2]   −ߠ − ߰ߠ2 (, ߰) = [−ߠ − ߰ߠ2]   −ߠ − ߰ߠ2 0.98
(, ߰) =  (, ߰) =  0.85
22 (16) (17) 22 (16) (17) 0.76
The adjustable parameter  plays a major role in the performance of the kernel and should be carefully tuned to the problem at hand. 調整可能なパラメータはカーネルのパフォーマンスにおいて重要な役割を担い、手元にある問題に慎重に調整する必要がある。 0.74
If overestimated, the exponential will behave almost linearly and the highdimensional projection will begin to lose its non-linear power. 過大評価された場合、指数関数はほぼ線形に振舞い、高次元射影はその非線形パワーを失う。 0.65
On the contrary, if underestimated, the function will lack regularization and the decision boundary will be highly sensitive to noise in training data (Ramalingam and Dhanalakshmi, 2014). それとは逆に、過小評価された関数は正規化を欠き、決定境界はトレーニングデータのノイズに非常に敏感になる(Ramalingam and Dhanalakshmi, 2014)。 0.75
SVM classifier is given by: SVM分類器は以下の通り。 0.74
7.1.2. Multi-Class SVM 7.1.2. マルチクラスSVM 0.66
() = sign( () + ) () = sign( () + ) 0.85
(18) SVM was made for binary classification. (18) SVMはバイナリ分類のために作られた。 0.72
But in the real world, we deal with classification problems with more than two classes. しかし、現実世界では、2つ以上のクラスで分類の問題に対処します。 0.78
Multi-category classification problems are usually divided into a series of binary problems so that binary SVM can be directly applied (Mathur and Foody, 2008). マルチカテゴリ分類問題は通常、バイナリSVMを直接適用できるように一連のバイナリ問題に分割される(Mathur and Foody, 2008)。 0.75
One representative method is the “One-Against-All" ; approach. 代表的な方法は"One-Against-All" ;アプローチである。 0.65
Consider an -class problem, where we have  training samples: {(1), (1)}, ..., {(), ()}. シュクラス問題(英語版)を考えると、ここでは、s の訓練サンプルが {t}(1), t}, ..., {t}, t {\displaystyle {t},\,} である。
訳抜け防止モード: クラス問題を考えてみましょう。ここでは、トレーニングのサンプルを訓練します: { s(1 )。 (1 ) }, ..., { ( ), ( ) } .
0.75
Here, () ࢠ Ó is a -dimensional feature vector and () ࢠ {1, 2, ..., } is the corresponding class label. ここで、任意のクラスラベルは s の次元的特徴ベクトル(英語版)であり、s は対応するクラスラベル(英語版)(class label)である。 0.46
Victoire Djimna et al. Victoire Djimna et al 0.65
: Preprint submitted to Elsevier :エルセヴィエに提出されたプレプリント 0.49
Page 9 of 17 17ページ9ページ。 0.78
英語(論文から抽出)日本語訳スコア
Figure 6: Kernel SVM graph (svm, (accessed April 19, 2020) 図6: Kernel SVM graph (svm, 2020年4月19日閲覧) 0.84
The One-Against-All approach constructs  binary SVM classifiers, each of which separates one class from all the rest. One-Against-All アプローチは、各々が他のすべてのクラスから1つのクラスを分離するバイナリ SVM 分類子を構成する。
訳抜け防止モード: The One - Against - All approach constructs ? binary SVM classifiers。 それぞれが1つのクラスを他のクラスから切り離します
0.77
The Ò SVM is trained with all the training examples of the Ò class with positive labels and all the others with negative labels. SVM は、正のラベルと負のラベルを持つ他のすべてのクラスのすべてのトレーニング例で訓練されています。 0.78
Mathematically, the Ò SVM solves the following problem that yields the Ò decision function () = ( 数学的には、 svm は次の問題を解き、その決定関数は次のようになる。 0.43
 ()+ )  ()+ ) 0.85
minimize ࢼ subject to ࢼ 最小化。 に従属する。 0.56
(,  į( (,  į( 0.90
ࢣ 2ߠߠ2 +  ) = 1  () + ) ࣙ 1 −  =1 , ࢣ 2ߠߠ2 +  ) = 1  () + ) ࣙ 1 −  =1 , 0.99
  ࣙ 0,     ࣙ 0,   0.85
(19) (20) where į = 1 if  =  and į = −1 otherwise. (19) (20) もし t = 1 で t = −1 であるなら、 t = 1 である。 0.75
At the classification phase, a sample  is predicted to be in class ࢩ whose ࢩ produces the largest value 分類段階では、サンプル s はクラス s で、そのクラス s は最大値を生成すると予測される。 0.74
ࢩ = argmax() = argmax( algmax (複数形 argmaxs または argmaxs または argmaxs) 0.57
 () + ),  () + ), 0.76
 = 1, ...,   = 1, ...,  0.74
7.2. Gaussian Mixture Model (GMM) 7.2. ガウス混合モデル(GMM) 0.72
Gaussian Mixture Model (GMM) is a parametric probability density function expressed as a weighted sum of Gaussian component densities. ガウス混合モデル (GMM) はガウス成分密度の重み付け和として表されるパラメトリック確率密度関数である。 0.79
In a biometric system, GMMs are widely used as a parametric model of the probability distribution of continuous measurements or features, such as spectral features related to the vocal tract in a speaker recognition system. 生体計測システムでは、gmmsは話者認識システムにおける声道に関連するスペクトル特徴のような連続的な測定や特徴の確率分布のパラメトリックモデルとして広く使われている。 0.88
GMM parameters are estimated from training data using the iterative expectation maximization (EM) algorithm (Reynolds, 2009). GMMパラメータは、反復予測最大化(EM)アルゴリズムを用いてトレーニングデータから推定される(Reynolds, 2009)。 0.83
7.2.1. K-means clustering 7.2.1. K平均クラスタリング 0.61
Here, the initialization of the GMM parameters is carried out using the number of clusters and allowing to form the different centers. ここで、GMMパラメータの初期化は、クラスタの数を使用して行われ、異なる中心を形成することができます。 0.71
In fact, GMM is a function that is comprised of several Gaussians, each identified by  ࢠ {1, ..., } (: number of clusters of the dataset). 実際、GMM はいくつかのガウス函数から構成される関数であり、それぞれが、データセットのクラスタ数 (satcher number of cluster of the dataset) によって識別される。 0.74
Each  has the following parameters (Figure 7): それぞれに以下のパラメータがあります(図7)。 0.81
1. A mean vector  that defines its center. 1. 平均ベクトルは中心を定義する。 0.73
2. A covariance matrix  that defines its width. 2. 幅を定義する共分散行列(covariance matrix)。 0.80
This would be equivalent to the dimensions of an ellipsoid in a これは a 内の楕円体の次元と同値である。 0.69
multivariate scenario. 3. 多変量シナリオ。 3. 0.81
A mixture of weights  that defines how big or small the Gaussian function will be. ガウス函数がどれほど大きいか、あるいは小さいかを定義する重みの混合である。 0.71
A mixture of weights must satisfy the constraint that: 重みの混合は次の制約を満たす必要がある。 0.69
ࢣ =1  = 1 ࢣ =1  = 1 0.76
(21) Victoire Djimna et al. (21) Victoire Djimna et al 0.75
: Preprint submitted to Elsevier :エルセヴィエに提出されたプレプリント 0.49
Page 10 of 17 17頁10頁。 0.75
英語(論文から抽出)日本語訳スコア
Figure 7: GMM parameters (Reynolds et al., (Reynolds, 2009)). 図7: GMMパラメータ (Reynolds et al., (Reynolds, 2009)。 0.71
GMM is giving by GMM が渡されます。 0.69
() = ࢣ () = ࢣ 0.85
=1  (, ),  =1  (, ),  0.68
(, ) = (, ) = 0.85
(2)ࢧ21ࢧ2  (2)ࢧ21ࢧ2  0.59
1 −1 2 A collective representation of the parameters is defined as: 1 −1 2 パラメータの集団表現は次のとおり定義される。 0.85
 = {, , },  = {, , }, 0.77
 = 1, ...,   = 1, ...,  0.74
where  is the D-dimensional continuous-valued data vector (i.e. は D-次元連続値データベクトル(すなわち)である。 0.80
measurement or features),  are the mixture weights, 測定または特徴)は混合重量である。 0.71
and (, ) are the Gaussian densities. と、その密度はガウスの密度である。 0.40
Each component density is a D-variate Gaussian function of the form: 各成分密度は、フォームのD変数ガウス関数です。 0.67
 = 1, ..., ,  = 1, ..., , 0.76
(22) ( − ) −1( − ) (22) ( − ) −1( − ) 0.92
 (23) (24)  (23) (24) 0.85
There are several variants of the GMM presented in equation 24. 方程式 24 で表される GMM にはいくつかの変種がある。 0.72
The  can be full rank or forced to be diagonal. は、フルランクまたは対角的に強制される。 0.46
Also, parameters can be shared or linked between Gaussian components. また、パラメータはガウス成分間で共有またはリンクすることができる。 0.61
As an example, by having a common covariance matrix for all components, the choice of model configuration (the number of components, full or diagonal covariance and parameter coupling) is usually determined by the volume of data available for the estimation of GMM parameters, and by the way in which the GMM is used in a particular biometric application. 例えば、すべてのコンポーネントに対して共通の共分散行列を持つことにより、モデル構成の選択(コンポーネント数、全または対角共分散およびパラメータ結合)は、通常、GMMパラメータの推定に利用可能なデータの量、および特定の生体測定アプリケーションでGMMが使用される方法によって決定される。 0.86
It is important to note this because even if the characteristics are not statistically independent, the Gaussian components act together to model the overall density of the characteristics. これは、特徴が統計的に独立でない場合でも、ガウス成分が一緒に作用して特性全体の密度をモデル化するためである。 0.77
The modeling of correlations between the vector components of the features can be performed by the linear combination of the Gaussian diagonal covariance basis. 特徴のベクトル成分間の相関のモデル化は、ガウス対角共分散基底の線形結合によって行うことができる。 0.82
The effect of employing a set of  full covariance matrices Gaussian can also be obtained by employing a larger set of Gaussian diagonal covariance matrices. ガウス的全共分散行列の集合を用いる効果は、ガウス対角共分散行列のより大きな集合を用いることによっても得られる。 0.80
The use of a GMM to represent feature distributions can also be driven by the intuitive idea that the densities of individual components can model an underlying set of hidden classes. 機能分布を表すためにGMMを使用することは、個々のコンポーネントの密度が根底にある隠れたクラスの集合をモデル化できるという直感的なアイデアによっても駆動される。 0.72
For example, in the case of the speaker, it is reasonable to assume that the acoustic space of the spectral features corresponding to a speaker’s major phonetic events such as vowels or fricatives. 例えば、スピーカーの場合、母音やフリカティブなどのスピーカーの主要な音声イベントに対応するスペクトルの特徴の音響空間が妥当であると仮定することは合理的です。 0.66
These acoustic classes reflect certain general configurations of speaker-dependent vocal pathways that are useful in characterizing speaker identity. これらの音響クラスは、話者識別を特徴付けるのに有用な話者依存音声経路の一般的な構成を反映している。 0.58
The spectral shape of the Ò acoustic class can, in turn, be represented by the mean  of the Ò component density, and variations in the mean spectral shape can be represented by the covariance matrix . 音響クラスにおけるスペクトルの形状は、各成分の密度の平均 ^ で表すことができ、平均スペクトルの形状のばらつきは共分散行列 ^ で表すことができる。 0.65
Since not all the characteristics used to form the GMM are labeled, the acoustic classes are hidden, in the sense that the class of observation is unknown. GMMを形成するために使用されるすべての特性がラベルされているわけではないので、観察のクラスが不明であるという意味で、音響クラスは隠されています。 0.65
The observation density of the feature vectors derived from these hidden acoustic classes form a Gaussian mixture (assuming that the feature vectors are independent) (Reynolds, 2009). これらの隠された音響クラスに由来する特徴ベクトルの観測密度はガウス混合(特徴ベクトルが独立であると仮定する)を形成する(Reynolds, 2009)。 0.88
7.2.2. Expectation-Maximiza tion (EM) 7.2.2. 期待最大化(EM) 0.59
Taking into account the training vectors and a configuration of the GMM, we wish to estimate the parameters of the GMM, , which in some sense corresponds best to the distribution of the training vectors. トレーニングベクターとGMMの構成を考慮して、ある意味ではトレーニングベクターの分布に最も適したGMMのパラメータを推定したい。 0.58
There are several techniques for estimating the parameters of a GMM (McLachlan and Basford, 1988). GMMのパラメータを推定する手法はいくつかある(McLachlan and Basford, 1988)。 0.79
By far, the most popular and best-established method is the expectation-maximiza tion (EM) algorithm. これまでのところ、最も人気があり、最も確立された方法は期待最大化(EM)アルゴリズムである。 0.59
The objective of expectation maximization (EM) is to find 期待最大化(EM)の目的は見つけることである 0.85
Victoire Djimna et al. Victoire Djimna et al 0.65
: Preprint submitted to Elsevier :エルセヴィエに提出されたプレプリント 0.49
Page 11 of 17 17ページ11頁。 0.80
英語(論文から抽出)日本語訳スコア
the model parameters that maximize the probability of the GMM given the training data. トレーニングデータを与えられたGMMの確率を最大化するモデルパラメータ。 0.80
For a sequence of  training vectors  = 1, .... , the likelihood of the GMM, assuming independence between the vectors, can be written as gmm がベクトル同士の独立性を仮定すると、その確率は gmm の確率として書ける。
訳抜け防止モード: 1 の訓練ベクトルの列 s = 1, ..., ..., s に対して ベクトル間の独立性を仮定した gmm の可能性 書くことができるのです
0.79
(Ǝ) = ࢣ (Ǝ) = ࢣ 0.92
(, ), (, ), 0.74
where () is the finite mixture model, and (, ) is the gaussian density for the Ò mixture component. ここで、 は有限混合モデル(英語版)(finite mixed model) であり、 は有限混合成分のガウス密度(英語版)(gaussian density) である。 0.59
 = (1, ..., ) is the vector of  binary indicator variables which are mutually exclusive and exhaustive. s = (1, ..., ) は、互いに排他的かつ排他的である二進指標変数のベクトルである。 0.59
Ǝ is the complete set of parameters (Ǝ = {1, ..., , 1, ..., }) s はパラメータの完全集合である(s = {*1, ..., s, s1, ..., s})。 0.71
Step 1: E-step The goal here is to compute the membership weights  which are the probabilities that reflect the uncertainty, ステップ1:Eステップここでの目標は、不確実性を反映した確率であるメンバーシップウェイトを計算することです。 0.70
=1 given  and Ǝ. =1 と名づけられた。 0.45
The membership weight of a data point  in cluster  can be written as: クラスタ s におけるデータポイント s のメンバシップウェイトは、次のように書ける。 0.62
(25)  = ( = 1, Ǝ) = (25)  = ( = 1, Ǝ) = 0.89
(, ) ࢣ =1 (, ) (, ) ࢣ =1 (, ) 0.96
Step 2: M-step This step aims to use the membership weights obtained in equation 26 in E-step, to calculate new parameter values ステップ2:Mステップ このステップは、Eステップの方程式26で得られたメンバシップウェイトを用いて、新しいパラメータ値を計算することを目的としている。
訳抜け防止モード: ステップ2 : M - ステップ このステップは 新しいパラメータ値を計算するために、E段階の方程式26で得られるメンバシップウェイトを使用する
0.82
which are given by equation 27, 28, 29. 27、28、29の方程式で示されています 0.69
(26) (27) (28) (26) (27) (28) 0.85
(29)  =   (29)  =   0.85
ࢣ , 1 ࣘ  ࣘ ,  , 1 ࣘ  ࣘ  ࢣ , 1 ࣘ  ࣘ ,  , 1 ࣘ  ࣘ  0.85
=1 1  ( − )( − ) , 1 ࣘ  ࣘ . =1 1  ( − )( − ) , 1 ࣘ  ࣘ . 0.72
 = ࢣ =1  = ࢣ =1 0.76
 = 1  where  =ࢣ  = 1  ここでは は = である。 0.63
=1  is the column sum of the membership weight matrix. s=1 は、メンバーシップ重み行列の列和である。 0.61
8. Implementation and Analysis This section presents the implementation of the techniques studied in the previous sections for the singer’s identification. 8. 実装と分析 本項では,歌手の身元確認のための前節で研究したテクニックの実装について述べる。 0.76
We will first give an overview of the procedure from separation to identification. まず、分離から識別までの手順の概要を説明します。 0.61
Then, we will present all the experimental data used in this study. そこで本研究で用いた全ての実験データを紹介します。 0.87
Finally, we will show the experiments and results obtained at each step of the singer identification process with and without feature extraction. 最後に,歌手識別プロセスの各ステップにおいて,特徴抽出を伴わずに得られた実験と結果を示す。 0.84
8.1. The Block Diagram of the Overall Process of Singer’s Identification 8.1. シンガー同定の全体過程のブロック図 0.58
As shown in the Figure 8, the inputs are audio files with the .mp3 extension. 図8に示すように、入力は.mp3拡張付きのオーディオファイルである。 0.84
After importing these files, we get the musical signal. これらのファイルをインポートすると、音楽信号が得られる。 0.65
We apply the STFT to each signal to obtain its matrix in the frequency domain. 周波数領域の行列を得るために各信号にSTFTを適用する。 0.64
Afterward, the RPCA technique is applied to this matrix separating it into two matrices: a low rank and a sparse matrix. その後、RPCA技術は、それを2つのマトリックスに分割するこのマトリックスに適用されます:低ランクとスパースマトリックスです。 0.65
After performing the ISTFT on the sparse matrix, the vocal signal is obtained. スパースマトリクス上でISTFTを実行した後、音声信号を得る。 0.61
This vocal signal obtained from each sound of the dataset allows building a data-frame. データセットの各音から得られるこの音声信号は、データフレームの構築を可能にする。 0.71
The purpose of this study is to show, first, the importance of feature extraction and then, to compare the two techniques DWT and MFCC. 本研究の目的は,まず特徴抽出の重要性を示し,次にDWTとMFCCの2つの手法を比較することである。 0.86
Hence, we perform three experiments: (1) Training the data without feature extraction; (2) Using MFCC for feature extraction; (3) Using DWT for feature extraction before training with SVM and GMM techniques. そこで、1特徴抽出のないデータトレーニング、2特徴抽出にMFCCを使用する、3SVMとGMM技術でトレーニングする前に特徴抽出にDWTを使用することの3つの実験を行います。 0.81
8.2. Dataset 8.2. データセット 0.66
We created a database of test recordings by selecting four popular singers: two men and two women, each with 50 excerpts. 2人の男性と2人の女性、それぞれ50抜粋の4人のポピュラーシンガーを選択し、テストレコードのデータベースを作成しました。
訳抜け防止モード: 私たちはテスト記録のデータベースを作成しました 人気歌手を4人選びます 男性2人と女性2人 それぞれ50人です
0.75
These songs go through the pre-processing phase where missing values are removed and twelve-second singing voice segments are obtained from each musical recording. これらの歌は、欠落した値を取り除き、各録音から12秒の歌唱音声セグメントを得る前処理フェーズを通過する。 0.66
As a result, after separation of signal and after using RPCA, each singer has a total of 263232 singing voice segments which are then introduced into the feature extraction phase. その結果、信号の分離後、RPCAを使用した後、各歌手は合計263232の歌声セグメントを持ち、その後、特徴抽出フェーズに導入されます。 0.73
Victoire Djimna et al. Victoire Djimna et al 0.65
: Preprint submitted to Elsevier :エルセヴィエに提出されたプレプリント 0.49
Page 12 of 17 17ページ12ページ。 0.78
英語(論文から抽出)日本語訳スコア
Figure 8: Block diagram of the overall process of singer’s identification 図8:歌手の識別の全体的なプロセスのブロック図。 0.75
8.3. Feature extraction using DWT 8.3.1. 8.3. DWT 8.3.1による特徴抽出 0.67
De-noising For de-noising, we investigate the maximum gain for input signals with different levels of degradation. 脱ノイズ 本研究では,劣化レベルが異なる入力信号の最大利得について検討する。 0.65
The amount of white noise added to the original signal is controlled with the standard deviation of the noise . 元の信号に追加されたホワイトノイズの量は、ノイズの標準偏差で制御されます。 0.76
The maximum gain is obtained by replacing the threshold  of equation 5 with 最大利得は、方程式5のしきい値を置き換えることで得られる。 0.77
Ý(2 log ),  = . ~(2log ~)  = . 0.62
(30) where 0 <  < 1. (30) where 0 <  < 1. 0.85
In fact, the universal threshold t given by equation 5 is too high for audio signals and it cuts a big part of the original signal. 実際、方程式5で与えられる普遍しきい値tは、音声信号には高すぎるため、元の信号の大部分をカットする。 0.73
So it is modified with factor  to obtain a higher quality output signal. そのため、より高品質な出力信号を得るために、因子 s で修正される。 0.72
The value of  is changed gradually with steps of 0.1. の値は0.1のステップで徐々に変化します。 0.81
Finally, we find  that gives the best result depicted in Figure 9. 最後に、図9で表される最良の結果を与える s を見つけます。 0.86
Figure 9: De-noising of the signal of Celine’s song 図9:Celineの曲の信号の消音。 0.60
Victoire Djimna et al. Victoire Djimna et al 0.65
: Preprint submitted to Elsevier :エルセヴィエに提出されたプレプリント 0.49
Page 13 of 17 17ページ13頁。 0.79
英語(論文から抽出)日本語訳スコア
8.3.2. Decomposition of signal 8.3.2. 信号の分解 0.63
According to literature, we use, for this implementation, the DWT Daubechies four (db4) of level 4. 文献によると、我々はこの実装のために、レベル4のDWT Daubechies 4 (db4)を使っている。 0.74
Each signal has the frequency 4160  after de-noising. 各信号は消音後の周波数4160である。 0.81
In Figure 10, we can easily see the five (05) sub-bands of the previously de-noised song: 4(0−260), 4(260−520), 3(520−1040), 2(1040−2080), 1(2080−4160) 図10では、5つの (05) サブバンドが、以前未発表だった曲の「4(0−260)」「4(260−520)」「3(520−1040)」「2(1040−2080)」「1(2080−4160)」を容易に見ることができる。
訳抜け防止モード: 図10では、以前のde-ノイズ曲の5つのサブバンド(05)が容易に見える。 4(260−520 ) , 3(520−1040 ) , 2(1040−2080 ) , 1(2080−4160 )
0.75
Figure 10: Decomposition of the signal of Celine’s song previously de-noised 図10:Celineの楽曲の信号の分解。 0.54
8.3.3. Feature extraction strictly speaking 8.3.3. 厳密に言えば特徴抽出 0.59
After the decomposition of the signal in sub-bands, we extract the following features to build our final data-frame: サブバンドにおける信号の分解後、最後のデータフレームを構築するために以下の特徴を抽出する。 0.69
• Time-Frequency domain: Mean and Spectral entropy. •時間周波数領域:平均およびスペクトルエントロピー。 0.84
• Time domain: Mean, Median, and Standard deviation. • 時間領域:平均、中央値、標準偏差。 0.62
Victoire Djimna et al. Victoire Djimna et al 0.65
: Preprint submitted to Elsevier :エルセヴィエに提出されたプレプリント 0.49
Page 14 of 17 17ページ14頁。 0.80
英語(論文から抽出)日本語訳スコア
• Frequency domain: Power spectral density. •周波数領域:パワースペクトル密度。 0.87
8.4. Singer identification 8.4. 歌手の識別 0.70
In this step, we first do a feature engineering to see which of the 18 features are correlated and use PCA to take the features which represent 99.99% of variation: 15 features. このステップでは、まず18の機能のうちどれが相関しているかを確認する機能エンジニアリングを行い、PCAを使用して99.99%のバリエーションを示す機能を取ります。 0.71
Then, we separate our data-frame: features for input and names of singers for output labels. その後、データフレーム:入力機能と出力ラベルの歌手の名前を分離します。 0.72
We then check the parameter of models which can influence the result and take the one which gives us the best result. 次に、結果に影響を与えるモデルのパラメータをチェックし、最良の結果をもたらすものを取ります。 0.76
Finally, knowing the audio signal, we train the machine learning models using the fold cross-validation value 10. 最後に、音声信号を知ることで、フォールドクロスバリデーション値10を用いて機械学習モデルを訓練する。 0.73
We also shuffle the data fifteen (15) times to have realistic results. また、現実的な結果を得るために、データを15回シャッフルします。 0.64
Then, the general accuracy will be the mean of the fifteen (15) accuracies. すると、一般的な精度は15 (15) の精度の平均となる。 0.76
First, we do the training without feature extraction. まず,特徴抽出を行わずにトレーニングを行う。 0.74
We remark that the best model is delivered by the SVM-RBF model with 36.78% of mean accuracy. 最良のモデルは平均精度36.78%のSVM-RBFモデルによって提供される。 0.85
It should be noted that the 263232 columns in the data-frame, without feature extraction, are considered as input for model training. 特徴抽出なしでデータフレーム内の263232列がモデルトレーニングの入力として考慮されている点に注意が必要だ。 0.80
Then, it becomes impossible to build the covariance matrix for GMM because the number of inputs is greater than the number of observations. すると、入力の数が観測数より大きいため、GMMの共分散行列を構築することは不可能となる。 0.78
However, a reduction in size is not possible because these columns represent the vector of the signal, and reducing it is equivalent to muting the signal, therefore, the implementation of this method was not possible. しかし、これらの列が信号のベクトルを表し、それを減らすことは信号のミュートと同等であるため、サイズの縮小は不可能であり、この方法の実装は不可能であった。 0.68
Second, we do the training using MFCC for feature extraction. 第2に,特徴抽出のためのMFCCを用いたトレーニングを行う。 0.70
We found that, in general, the SVM model performs better than the GMM. 一般的に、SVMモデルはGMMよりもパフォーマンスが良いことが分かりました。 0.78
The best model is SVM-Linear with an mean accuracy of 61.49%. 最良のモデルは、平均精度61.49%のSVM-Linearである。 0.76
Finally, we train the models using the final data-frame obtained at the previous step with DWT for feature extraction. 最後に,前ステップで得られた最終データフレームを用いて,特徴抽出のためにDWTを用いてモデルを訓練する。 0.73
We have determined that the best model is SVM-Linear with 83.96%. 最良モデルは83.96%のsvm線形であることが判明した。 0.70
The results have been summary in Figure 11 結果は図11で要約されています 0.78
Figure 11: Boxplot of performance (accuracies) with DWT 図11: dwt によるパフォーマンスのboxplot(accuracies) 0.78
9. Conclusion and Recommendation The objective of this work was to apply the DWT for feature extraction and compare the results with the MFCC to see which of the two improves the identification of the singer in term of accuracy. 9. 結論と勧告 この研究の目的は、DWTを特徴抽出に適用し、MFCCと結果を比較して、どちらの2つが精度の点で歌手の識別を改善するかを確認することでした。 0.76
We first gave the physical and mathematical description of the different techniques ranging from separation of the vocal signal from the background signal to the singer identification. まず,背景信号からの発声信号の分離から歌手識別まで,様々な技法の物理的・数学的記述を行った。 0.70
Then, we implemented these techniques according to a dataset of 200 songs (50 songs per singer). そして,200曲(歌手毎50曲)のデータセットに基づいて,これらの手法を実装した。 0.70
RPCA was used for the separation of signals; DWT and MFCC were used to feature extraction; and SVM and GMM were used for singer’s identification. RPCAは信号の分離に使われ、DWTとMFCCは特徴抽出に使われ、SVMとGMMは歌手の識別に使われました。 0.68
For a set of 200 observations of audio signals, this study shows that: オーディオ信号の200の観察のセットのために、この研究はそれを示しています。 0.66
Victoire Djimna et al. Victoire Djimna et al 0.65
: Preprint submitted to Elsevier :エルセヴィエに提出されたプレプリント 0.49
Page 15 of 17 17ページ15頁。 0.79
英語(論文から抽出)日本語訳スコア
• The vocal signals are very unstable because the same artist sings in different styles and uses different nuances that influence the results of the study using a small number of recordings. •同じアーティストが異なるスタイルで歌い、少数の録音を用いて研究結果に影響を与える異なるニュアンスを使用するため、声の信号は非常に不安定である。 0.82
As a consequence, low accuracies are obtained. その結果、低い精度が得られます。 0.69
• The feature extraction is essential for the singer identification process. •特徴抽出は歌手識別プロセスに不可欠である。 0.74
• DWT performs better than MFCC for feature extraction in term of accuracy and training time. • DWTは、精度とトレーニング時間の観点から特徴抽出のためのMFCCよりも優れています。 0.70
• SVM performs better than GMM for singer identification. • SVMは歌手の識別のためのGMMよりよく行います。 0.74
• The best configuration of techniques for singer identification is DWT + SVM-Linear with a mean accuracy of •歌手識別のためのテクニックの最良の構成は、平均精度のDWT + SVM-Linearである。 0.79
83.96% with a training time of 1 068 s. 83.96%,トレーニング時間は1068秒であった。 0.79
However, to generalize these results, it is essential to perform the same study on a much larger set of recordings. しかし、これらの結果を一般化するには、より大きな録音セットについて同じ研究を行うことが不可欠です。 0.68
Since DWT is better at extracting characteristics from audio signals, future work could be the in-depth study of the different families of DWT to investigate the effects of their individual properties and to use appropriate DWTs for different cases of datasets. DWTはオーディオ信号から特性を抽出するのに優れているため、将来の研究は、DWTの異なるファミリーの詳細な研究であり、個々の特性の影響を調査し、データセットの異なるケースに適切なDWTを使用することができる。 0.78
Besides, DWT can be used for extended periods to study other non-stationary signals such as those in the human body (electroencephalogra m (EEG), electrocardiogram (ECG), electro-oculography (EOG)). さらに、DWTは、人体(脳波(EEG)、心電図(ECG)、心電図(EOG))などの他の非定常信号を研究するために長期間使用することができます。 0.83
This will allow abnormalities to be detected fairly quickly and diseases predicted and treated before complications arise. これにより、異常がかなり迅速に検出され、合併症が発生する前に疾患が予測および治療されます。 0.58
CRediT authorship contribution statement CRediT の著者コントリビューションステートメント 0.75
Victoire Djimna Noyum: Conceptualization of this study, Methodology, Software, Data curation, Writingoriginal draft. Victoire Djimna Noyum: この研究の概念化、方法論、ソフトウェア、データキュレーション、ライティングオリジナルドラフト。 0.64
Younous Perieukeu Mofenjou: Software, Result compilation, Writing -review. Younous Perieukeu Mofenjou: ソフトウェア、結果のコンパイル、書き込み - レビュー。 0.78
Cyrille Feudjio: Software, Result compilation, Writing -review. Cyrille Feudjio: ソフトウェア、結果のコンパイル、書き込み - レビュー。 0.83
Alkan Göktug: Supervision, Validation, Writing - review & editing. Alkan Göktug: スーパービジョン、検証、執筆 - レビューと編集。 0.79
Ernest Fokoué : Supervision, Software, Validation, Writing - review & editing. Ernest Fokoué: スーパービジョン、ソフトウェア、検証、執筆、レビュー、編集。 0.73
References , (accessed April 19, 2020). 参照、(2020年4月19日アクセス)。 0.72
/urlhttps://www.rese archgate.net/figure/Support-vector- machine-SVM-classifier_fig3_309361744. /urlhttps://www.rese archgate.net/figure/ Support-vector-machi ne-SVM-classifier_fi g3_309361744。 0.20
, (accessed April 22, 2020). アクセスは2020年4月22日)。 0.63
Improvement of Anomoly Detection Algorithms in Hyperspectral Imagesusing Discrete Wavelet Transform. 離散ウェーブレット変換を用いたハイパースペクトル画像のアノモリー検出アルゴリズムの改良 0.69
/urlhttps://www.rese archgate.net/figure/Three-level-wav elet-decomposition-t ree_fig1_51988488. https://www.research gate.net/figure/Thre e-level-wavelet-deco mposition-tree_fig1_ 5 1988488 0.17
Aggarwal, R., Singh, J.K., Gupta, V.K., Rathore, S., Tiwari, M., Khare, A., 2011. Aggarwal, R., Singh, J.K., Gupta, V.K., Rathore, S., Tiwari, M., Khare, A., 2011。 0.95
Noise reduction of speech signal using wavelet transform with ウェーブレット変換を用いた音声信号のノイズ低減 0.86
modified universal threshold. ユニバーサルしきい値の修正。 0.59
International Journal of Computer Applications 20, 14–19. International Journal of Computer Applications 20, 14–19。 0.93
Bartsch, M.A., Wakefield, G.H., 2004. bartsch, m.a., wakefield, g.h., 2004年。 0.48
Singing voice identification using spectral envelope estimation. スペクトルエンベロープ推定を用いた歌声識別 0.64
IEEE Transactions on speech and audio IEEE Transactions on speech and audio (英語) 0.76
processing 12, 100–109. 処理12, 100-109。 0.76
Boser, B.E., Guyon, I.M., Vapnik, V.N., 1992. Boser, B.E., Guyon, I.M., Vapnik, V.N., 1992 0.85
A training algorithm for optimal margin classifiers, in: Proceedings of the fifth annual workshop on 最適マージン分類器の学習アルゴリズム,in:第5回年次ワークショップの経過 0.69
Computational learning theory, pp. 計算学習理論、p.。 0.74
144–152. Brunner, C., Fischer, A., Luig, K., Thies, T., 2012. 144–152. Brunner, C., Fischer, A., Luig, K., Thies, T., 2012 0.75
Pairwise support vector machines and their application to large scale problems. Pairwiseはベクトルマシンとその大規模問題への応用をサポートする。 0.79
Journal of Machine Learning Research 13, 2279–2292. 日誌 機械学習研究13,2279–2292。 0.64
Candès, E.J., Li, X., Ma, Y., Wright, J., 2011. Candès, E.J., Li, X., Ma, Y., Wright, J., 2011 0.85
Robust principal component analysis? Journal of the ACM (JACM) 58, 1–37. 頑健な主成分分析? Journal of the ACM (JACM) 58, 1-37。 0.84
Chang, S.G., Yu, B., Vetterli, M., 2000. Chang, S.G., Yu, B., Vetterli, M., 2000 0.87
Adaptive wavelet thresholding for image denoising and compression. 画像の消音と圧縮のための適応ウェーブレットしきい値付け。 0.66
IEEE transactions on image processing 画像処理におけるIEEEトランザクション 0.71
9, 1532–1546. 9, 1532–1546. 0.84
Donoho, D.L., 1995. D.L.、1995年。 0.72
De-noising by soft-thresholding. ソフトスレッショニングによる消音 0.45
IEEE transactions on information theory 41, 613–627. 情報理論41, 613–627に関するIEEE取引。 0.72
Fu, Q., Wan, E.A., 2003. 2003年、Wan, E.A., 2003。 0.70
Perceptual wavelet adaptive denoising of speech, in: Eighth European Conference on Speech Communication and 音声の知覚ウェーブレット適応的ノイズ除去 : 第8回欧州音声通信会議と講演 0.79
Technology. Hsu, C.L., Jang, J.S.R., 2009. 技術。 Hsu, C.L., Jang, J.S.R., 2009 0.77
On the improvement of singing voice separation for monaural recordings using the mir-1k dataset. mir-1kデータセットを用いたモノーラル録音における歌声分離の改善について 0.69
IEEE Transactions IEEEトランザクション 0.76
on Audio, Speech, and Language Processing 18, 310–319. on Audio, Speech, and Language Processing 18, 310–319. 0.98
Hung, J.w., Lin, J.S., Wu, P.J., 2018. Hung, J.w., Lin, J.S., Wu, P.J., 2018 0.86
Employing robust principal component analysis for noise-robust speech feature extraction in automatic speech 自動音声におけるノイズロバスト音声特徴抽出のためのロバスト主成分解析 0.78
recognition with the structure of a deep neural network. 深いニューラルネットワークの構造による認識。 0.67
Applied System Innovation 1, 28. 応用システム革新 1, 28。 0.71
Li, F., Akagi, M., 2019. li, f., akagi, m., 2019年。 0.75
Blind monaural singing voice separation using rank-1 constraint robust principal component analysis and vocal activity ランク1制約頑健な主成分分析と発声活動を用いたブラインド・モノラル歌声分離 0.76
detection. Neurocomputing 350, 44–52. 検出 350, 44-52。 0.51
Liu, C.C., Huang, C.S., 2002. Liu, C.C., Huang, C.S., 2002 0.90
A singer identification technique for content-based classification of mp3 music objects, in: Proceedings of the eleventh mp3音楽オブジェクトのコンテンツベースの分類のための歌手識別技術,その1:第11話の進行 0.72
international conference on Information and knowledge management, pp. international conference on information and knowledge management, pp. (英語) 0.82
438–445. Maddage, N.C., Xu, C., Wang, Y., 2004. 438–445. Maddage, N.C., Xu, C., Wang, Y., 2004 0.80
Singer identification based on vocal and instrumental models, in: Proceedings of the 17th International ボーカルモデルと楽器モデルに基づく歌唱者の識別--第17回国際科学会紀要- 0.71
Conference on Pattern Recognition, 2004. パターン認識に関する会議、2004年。 0.78
ICPR 2004., IEEE. ICPR 2004、IEEE。 0.65
pp. 375–378. pp. 375–378. 0.78
Mathur, A., Foody, G.M., 2008. Mathur, A., Foody, G.M., 2008年。 0.90
Multiclass and binary svm classification: Implications for training and classification users. マルチクラスおよびバイナリsvm分類: トレーニングおよび分類ユーザに対する意味。 0.81
IEEE Geoscience and remote sensing letters 5, 241–245. IEEE地球科学 リモートセンシング文字5, 241–245。 0.73
McLachlan, G., Basford, K., 1988. McLachlan, G., Basford, K., 1988年。 0.89
Mixture models marcel dekker. 混合モデルMarcel dekker。 0.57
New York . Victoire Djimna et al. ニューヨーク。 Victoire Djimna et al 0.62
: Preprint submitted to Elsevier :エルセヴィエに提出されたプレプリント 0.49
Page 16 of 17 17ページ16 0.62
英語(論文から抽出)日本語訳スコア
Merry, R., Steinbuch, M., 2005. Merry, R., Steinbuch, M., 2005。 0.82
Wavelet theory and applications. ウェーブレット理論とその応用 0.81
literature study, Eindhoven university of technology, Department of mechanical アイントホーフェン工科大学機械工学科文学研究 0.46
engineering, Control systems technology group . 工学、制御システムの技術グループ。 0.84
Montejo, L.A., Suárez, L.E., 2007. montejo, l.a., suárez, l.e., 2007年。 0.55
Aplicaciones de la transformada ondícula ("wavelet") en ingeniería estructural. Aplicaciones de la transformada ondícula ("wavelet") en ingeniería estructural。 0.68
Mecánica Computacional 26, Mecánica Computacional 26。 0.80
2742–2753. 2742–2753. 0.71
NAMEIRAKPAM, J., BISWAS, S., BONJYOSTNA, A., 2019. NAMEIRAKPAM、J.、BISWAS、S.、BONJYOSTNA、A.、2019。 0.80
Singer identification using wavelet transform, in: 2019 2nd International Conference ウェーブレット変換を用いたシンガー識別 : 2019年第2回国際会議 0.73
on Innovations in Electronics, Signal Processing and Communication (IESC), IEEE. 電子、信号処理および通信(IESC)、IEEEの革新について。 0.66
pp. 238–242. pp. 238–242. 0.78
Ramalingam, T., Dhanalakshmi, P., 2014. Ramalingam, T., Dhanalakshmi, P., 2014。 0.81
Speech/music classification using wavelet based feature extraction techniques. ウェーブレットに基づく特徴抽出技術を用いた音声・音楽分類 0.64
Journal of Computer Science 10, 34. コンピュータ学会誌 科学10、34。 0.70
Reynolds, D.A., 2009. Reynolds, D.A., 2009年。 0.79
Gaussian mixture models. Encyclopedia of biometrics 741. ガウス混合モデル。 Encyclopedia of Biometrics 741 (英語) 0.66
Saric, M., Bilicic, L., Dujmic, H., 2005. Saric, M., Bilicic, L., Dujmic, H., 2005。 0.83
White noise reduction of audio signal using wavelets transform with modified universal threshold. ユニバーサルしきい値を変更したウェーブレット変換を用いた音声信号のホワイトノイズ低減 0.74
University of Split, R. Boskovica b. b HR 21000. 大学 スプリットのR. Boskovica b.b HR 21000。 0.75
Schremmer, C., Haenselmann, T., Bomers, F., 2001. Schremmer, C., Haenselmann, T., Bomers, F., 2001。 0.83
A wavelet based audio denoiser, in: Proc. ウェーブレットベースのオーディオデノイザ、In: Proc。 0.55
IEEE International Conference on Multimedia and IEEE International Conference on Multimedia and 0.85
Expo, Citeseer. Expo、Citeseer。 0.68
pp. 145–148. pp. 145–148. 0.78
Vapnik, V., 1998. ヴァプニク、V.、1998。 0.79
Statistical learning theory, new york, 1998. 統計学習理論、ニューヨーク、1998年。 0.74
Wang, X., Wang, J., Fu, C., Gao, Y., 2013. Wang, X., Wang, J., Fu, C., Gao, Y., 2013。 0.84
Determination of corrosion type by wavelet-based fractal dimension from electrochemical noise. ウェーブレット型フラクタル次元による腐食の電気化学的ノイズによる定量 0.74
Int. J. Electrochem. Int J。 電気化学。 0.65
Sci 8, 7211–7222. Sci 8, 7211–7222。 0.83
Xing, L., 2017. Xing, L., 2017年。 0.87
Singer identification of pop music with singing-voice separation by rpca . rpcaによる歌声分離によるポップミュージックの歌手識別。 0.76
Yang, S., 2016. ヤン、S.、2016。 0.67
Statistical approaches for signal processing with application to automatic singer identification . 自動歌手識別への応用による信号処理の統計的アプローチ 0.86
Victoire Djimna et al. Victoire Djimna et al 0.65
: Preprint submitted to Elsevier :エルセヴィエに提出されたプレプリント 0.49
Page 17 of 17 17ページ。 0.56
                                   ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。