論文の概要、ライセンス

# (参考訳) 重金属音楽における悲鳴検出 [全文訳有]

Scream Detection in Heavy Metal Music ( http://arxiv.org/abs/2205.05580v1 )

ライセンス: CC BY 4.0
Vedant Kalbag, Alexander Lerch(参考訳) 悲鳴やグロールのようなハーシュのボーカル効果は、伝統的に歌われたボーカルよりもヘビーメタルのボーカルでより一般的である。 本稿では,重金属音楽における極端な発声手法の検出と分類の問題,特に異なる発声技法の同定について考察する。 分類のための入力表現として,ケプストラム,スペクトル,時間的特徴を含む様々な特徴表現の適合性について検討した。 この作品の主な貢献は (i)多種多様なジャンルのヘビーメタル曲280分以上からなる手作業による注釈付きデータセットで、ヘビーメタル音楽における異種の極端声技術の発生を統計的に分析したもの (ii)重金属声帯分類のための入力特徴表現の系統的検討

Harsh vocal effects such as screams or growls are far more common in heavy metal vocals than the traditionally sung vocal. This paper explores the problem of detection and classification of extreme vocal techniques in heavy metal music, specifically the identification of different scream techniques. We investigate the suitability of various feature representations, including cepstral, spectral, and temporal features as input representations for classification. The main contributions of this work are (i) a manually annotated dataset comprised of over 280 minutes of heavy metal songs of various genres with a statistical analysis of occurrences of different extreme vocal techniques in heavy metal music, and (ii) a systematic study of different input feature representations for the classification of heavy metal vocals
公開日: Wed, 11 May 2022 15:48:56 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Scream Detection in Heavy Metal Music 重金属音楽における悲鳴検出 0.71
Vedant Kalbag ヴァンダン・カルバグ(Vedant Kalbag) 0.34
Music Informatics Group 音楽インフォマティクスグループ 0.70
Georgia Institute of Technology, USA vedant.kalbag@gatech .edu ジョージア工科大学, usa vedant.kalbag@gatech .edu 0.74
Alexander Lerch アレクサンドル・レルチ 0.65
Music Informatics Group 音楽インフォマティクスグループ 0.70
Georgia Institute of Technology, USA alexander.lerch@gate ch.edu ジョージア工科大学、alexander.lerch@gate ch.edu 0.83
2 2 0 2 y a M 1 1 2 2 0 2 y a m 1 1 である。 0.54
] D S . ] d s である。 0.49
s c [ 1 v 0 8 5 5 0 sc [ 1 v 0 8 5 5 0 0.34
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
ABSTRACT Harsh vocal effects such as screams or growls are far more common in heavy metal vocals than the traditionally sung vocal. ABSTRACT 悲鳴やグロールのようなハーシュのボーカル効果は、伝統的に歌われたボーカルよりもヘビーメタルのボーカルでより一般的である。 0.51
This paper explores the problem of detection and classification of extreme vocal techniques in heavy metal music, specifically the identification of different scream techniques. 本稿では,重金属音楽における極端な発声手法の検出と分類の問題,特に異なる発声技法の同定について考察する。 0.72
We investigate the suitability of various feature representations, including cepstral, spectral, and temporal features as input representations for classification. 分類のための入力表現として,ケプストラム,スペクトル,時間的特徴を含む様々な特徴表現の適合性について検討した。 0.67
The main contributions of this work are この作品の主な貢献は 0.68
(i) a manually annotated dataset comprised of over 280 minutes of heavy metal songs of various genres with a statistical analysis of occurrences of different extreme vocal techniques in heavy metal music, and (i)多種多様なジャンルのヘビーメタル曲280分以上からなる手作業による注釈付きデータセットで、ヘビーメタル音楽における異種の極端声技術の発生を統計的に分析したもの 0.81
(ii) a systematic study of different input feature representations for the classification of heavy metal vocals. (II)重金属ボーカルの分類における入力特徴表現の系統的研究 0.61
1. INTRODUCTION Vocals in heavy metal music can be very different to those in other styles. 1.導入 ヘビーメタル音楽のボーカルは他のスタイルのボーカルとは大きく異なる。 0.69
Heavy metal vocalists use a variety of techniques, colloquially known as screams or growls, which are produced by modifying the length and shape of the vocal tract [1]. ヘビーメタルのボーカリストは、声道の長さと形状を変更することによって作られる、悲鳴またはグロールと呼ばれる様々なテクニックを使用する。 0.66
These screamed vocals serve one of two purposes: they are either low and beast-like to accentuate the aggressive, darker themes of heavy metal, or high and screechy, to stand out from the otherwise aggressive sounds of the distorted electric guitar [2]. これらの叫び声は、低音と野獣のような2つの目的の1つであり、重金属の攻撃的で暗いテーマを強調するものであるか、あるいは歪んだエレキギターのアグレッシブな音を際立たせるためである。 0.68
In this paper we explore methods to detect and classify the type of vocal technique being used by a vocalist. 本稿では,ボーカリストが使用する発声技法の種類を検知し,分類する方法について検討する。 0.73
The automatic identification of different type of vocal techniques in heavy metal could, for instance, inform genre classification systems and aid music recommendation systems based on preference for a specific vocal type. 例えば、ヘビーメタルの異なるタイプの声のテクニックを自動識別することで、ジャンル分類システムに通知し、特定の声の好みに基づいて音楽レコメンデーションシステムを支援することができる。 0.76
Vocal detection for heavy metal music could also improve vocal extraction as well as (lyrics) transcription for this genre. 重金属音楽のボーカル検出は、このジャンルのボーカル抽出や(歌詞の)転写も改善する可能性がある。 0.69
Nieto introduced the term ‘Extreme Vocal Effects’ or EVEs to describe the vocal styles present in heavy metal [3]. ニートはヘビーメタル[3]に存在するボーカルのスタイルを記述するために、EVE(Extreme Vocal Effects)という用語を導入した。 0.66
These EVEs fall into 3 main categories: EVEは3つのカテゴリに分類される。 0.61
• Growls: Growls are common in death metal. ・生長:デスメタルに共通する。 0.45
They are very noisy and the fundamental frequency is rarely perceived. それらは非常に騒々しく、基本周波数はほとんど認識されない。 0.67
They are usually loud and produce a high amount of spectral variation [1, 4] 彼らは通常大声で、大量のスペクトル変動[1, 4]を発生させる 0.82
Copyright: © 2022 Vedant Kalbag et al This is an open-access article distributed under the terms of the Creative Commons Attribution 3.0 Unported License, which permits unrestricted use, distribution, and reproduction in any medium, provided the original author and source are credited. 著作権: 2022 Vedant Kalbag et al これはCreative Commons Attribution 3.0 Unported Licenseの条項で配布されるオープンアクセス・アーティクルで、原作者及びソースがクレジットされている場合、任意の媒体における無制限の使用、配布、複製を許可する。 0.74
• Fry Screams: Fry screams are similar to growls, but are brighter and not as loud. ・フライ・スクリームズ(Fry Screams):フライ・シャウトはグレールに似ているが、明るく、大声ではない。
訳抜け防止モード: •フライ悲鳴:フライ悲鳴はウナギに似ている。 しかし、より明るく、大声ではない。
0.66
They are produced by a series of irregularly spaced glottal pulses that are induced by inhaling or exhaling [5] これらは、吸入または吸入によって誘導される一連の不規則な間隔のスロットタルパルスによって生成される[5]。 0.61
• Rough Vocals: Rough vocals are obtained by adding variations in the vocal tract to obtain a harmonically richer spectrum [1, 6]. •粗い声帯:声道にバリエーションを加え、調和的に豊かなスペクトル(1,6]を得ることにより粗い声帯を得る。 0.74
This is much more common in rock than in metal (e g , for bands such as Foo Fighters and Breaking Benjamin). これは金属よりも岩の方が一般的である(例えば、Foo FightersやBreaking Benjaminのようなバンド)。 0.79
Figure 1 shows a sample spectrogram for each class. 図1は、各クラスのサンプルスペクトログラムを示しています。 0.69
Distinct patterns in the low and mid fry scream can be observed that distinguish them from the other types of screams. 他のタイプの鳴き声と区別する、低音と中音の鳴き声の異なるパターンが観察できる。 0.52
The high screams occupy a higher portion of the spectrum as well. 高い叫び声は、スペクトルのより高い部分を占める。 0.59
It is important to note that, in these examples, the mid fry scream appears to have lower frequency content than the low fry scream. これらの例では、中フライの叫び声は、低いフライの叫び声よりも低い周波数のコンテンツを持っているように見えることに注意する必要がある。 0.52
This is because these are examples chosen from different vocalists, and the perceived type of scream varies according to factors discussed in Sect. これは、これらが異なる声楽家から選ばれた例であり、宗派で議論される要因によって、悲鳴の種類が異なるためである。
訳抜け防止モード: これは異なる声楽家の中から選ばれた例である。 認識される悲鳴の種類は セクターで議論される要因によって異なります
0.66
3. Some subgenres of metal also involve sung or ‘clean’ vocals. 3. 金属のサブジャンルには、歌声や「クリーン」のボーカルも含まれる。 0.55
In this paper, ‘screams’ and ‘growls’ will be used to describe the overall style of distorted heavy metal vocals, and ‘clean’ will be used to describe sung vocals. この論文では、'screams' と 'growls' は歪んだ重金属のボーカルの全体的なスタイルを記述するために使用され、'clean' は歌唱のボーカルを記述するために使われる。 0.77
The term growl usually refers to the low pitched, rough sounds uttered by animals. グリコール(Growl)とは、動物が発する低音で粗い音のことである。 0.67
Humans occasionally use growl-like voices to express strong emotions. 人間は時々、強い感情を表現するためにうなりのような声を使う。 0.50
Examples of ‘growl’ phonations have been seen across the genres of jazz, blues, gospel, samba, country and pop. グロール」の音節の例はジャズ、ブルース、ゴスペル、サンバ、カントリー、ポップのジャンルで見られる。 0.56
In ethnic music, the growl is found in umngqokolo (the vocal tradition of the Xhosa people), and throat singing (Tuvan and Mongolian) [7]. 民族音楽では、ムンココロ(チョサ族の声楽の伝統)や喉の歌(トゥバン語とモンゴル語)(7)に見られる。 0.66
However, in recent times growls are most strongly associated with metal vocals. しかし、近年では、グロールは金属のボーカルと強く結びついている。 0.63
Extreme metal screams can be performed by either inhaling or exhaling which has a noticeable effect on the timbre of the sounds produced. 極端な金属の鳴き声は、発する音の音色に顕著な影響を持つ吸入または吐き出によって行うことができる。 0.75
However, in most modern metal, screams are produced by exhaling, and so our work will focus on these types of screams. しかし、現代のほとんどの金属では、叫び声は吐き声によって生み出されるので、私たちの作品はこの種の悲鳴に焦点を合わせます。
訳抜け防止モード: しかし、現代のほとんどの金属では、叫び声は吐き出される。 私たちの仕事は このような悲鳴に焦点を合わせます
0.63
The remainder of this paper is structured as follows. 本論文の残りは次のように構成されている。 0.63
After an overview of related work in Sect. 宗門関係を概観した。 0.16
2, a new publicly available dataset is introduced in Sect. 新しい公開データセットがScienceで導入された。 0.43
3. We describe several benchmark systems for detection and classification in Sect. 3. セクターにおける検出と分類のためのベンチマークシステムについて述べる。 0.50
4 and present the corresponding results in Sect. 4およびそれに対応する結果をセクターで提示する。 0.57
6. The conclusion in Sect. 6. 宗派の結末。 0.35
7 summarizes the main contributions in gives a brief outlook of future work. 7は、主な貢献を要約して、将来の仕事に関する簡単な展望を与えます。 0.52
2. RELATED WORK While there exists, to the best knowledge of the authors, no previous work on the automatic categorization of heavy metal vocals, one related field is the detection of screams in 2.関連作業 著者たちの知る限りでは、重金属ボーカルの自動分類に関する以前の研究は存在していないが、関連する分野の1つは悲鳴の検出である。 0.71
英語(論文から抽出)日本語訳スコア
Figure 1. Example spectrogram representation of different screams. 図1に示す。 異なる悲鳴のスペクトログラム表現の例。 0.64
urban environments. In the previous section, we introduced different types of screams in metal music. 都市環境。 前節では、金属音楽に様々な種類の悲鳴を紹介した。 0.71
Here, we will discuss past work with scream detection in general, followed by related work on screamed vocals in heavy metal music. ここでは,過去の悲鳴検出について概ね議論し,その後ヘビーメタル音楽における叫び声に関する関連研究を行う。 0.64
Prior work in detecting screams aims at the detection and localization of screams in urban sound, the detection of screams in subways, scream and shout recognition in noise, and scream detection for home applications. 従来は、都市音における悲鳴の検出と位置決め、地下鉄での悲鳴の検出、騒音による悲鳴と発声の認識、ホームアプリケーションのための悲鳴検出を目的としていた。 0.63
Various approaches were taken to achieve these tasks. これらの課題を達成するために様々なアプローチが採られた。 0.51
Huang et al used Mel Frequency Cepstral Coefficients (MFCCs) and Support Vector Machine (SVM) to classify blocks of audio captured from a microphone array into the two classes scream and non-scream [8]. Huang氏らはMel Frequency Cepstral Coefficients(MFCC)とSVM(Support Vector Machine)を使用して、マイクロフォンアレイから取得したオーディオのブロックを、2つのクラスの悲鳴と非スクレムに分類した[8]。 0.72
Rabaoui et al use a one class SVM to classify a sound into 9 categories, including scream, gunshot, explosion, door slam or dog barks, using features such as spectral centroid, spectral roll-off, zero-crossing rate, MFCCs and Linear Predictive Coding Coefficients (LPCCs) [9]. Rabaouiらは一級SVMを使って、音を悲鳴、銃声、爆発、ドアスラム、ドッグバークなどの9つのカテゴリーに分類し、スペクトルセントロイド、スペクトルロールオフ、ゼロクロスレート、MFCC、線形予測符号化係数(LPCC) [9] などの特徴を使用する。 0.67
They also included the first and second derivatives of these features, but determined that they were not helpful in improving performance. また、これらの特徴の第1および第2の派生も含んでいたが、性能向上には役に立たないと判断した。 0.58
Lafitte et al used a deep neural network approach with MFCCs to detect shouted voice/screams in subway trains, and classify audio into shout, conversation and noise [10]. lafitteらは、mfccsによるディープニューラルネットワークアプローチを使用して、地下鉄の列車の叫び声/スクレイムを検出し、音声をシャウト、会話、ノイズに分類した [10]。 0.67
Other work in detecting screams in noise also uses MFCC and spectral entropy features with GMM classifiers to achieve this task [11–13]. また、MFCCとスペクトルエントロピーの特徴をGMM分類器で検出し、この課題を達成している[11-13]。
訳抜け防止モード: GMM分類器を用いたMFCCおよびスペクトルエントロピー特徴を用いた他のノイズ中の悲鳴検出に関する研究 この仕事 [11–13 ] を達成する.
0.73
The best performing of these methods was able to achieve equal error rates (EERs) of 0.3% and 0.8% under 0dB and -5dB signal to noise ratio (SNR) conditions. これらの手法の最良の性能は、0dB と -5dB の信号対雑音比 (SNR) 条件下では、等しい誤差率 (EER) が 0.3% と 0.8% に達することであった。 0.74
This approach, while useful in identifying screams in noisy conditions, cannot be translated well to detecting screams in music since the noise added was that of subway stations, trains and air この手法は、騒々しい状況下での悲鳴を識別するのに有用であるが、地下鉄駅、列車、空気の騒音が加わったため、音楽の悲鳴を検出するにはうまく翻訳できない。 0.64
conditioners. Most work related to heavy metal vocals focuses on the physiology of screamed vocals [7, 14–16], their spectral properties [17], and exploratory acoustic feature analyses [7, 18]. コンディショナー ヘビーメタルのボーカルに関するほとんどの研究は、叫び声の生理 [7, 14–16] 、スペクトル特性 [17] 、探索音響特徴分析 [7, 18] に焦点を当てている。 0.59
There has been limited work on detecting and classifying the types of vocals present in heavy metal. 重金属に含まれる声のタイプを検出し分類する作業は限られている。 0.69
Nieto uses k-means clustering to group different vocal styles into the three classes Growl, Fry Scream, and Roughness [1]. Nietoはk-meansクラスタリングを使用して、異なるボーカルスタイルをGrowl、Fry Scream、Roughness [1]の3つのクラスに分類する。 0.66
The dataset used consisted of labeled recordings of the 6 vocalists’ screams. 使用されたデータセットは、6人のボーカリストの悲鳴のラベル付き録音で構成されていた。 0.50
While this work was successful at grouping similar classes together, it could not predict the type of EVE present. この研究は類似のクラスをまとめてグループ化することに成功したが、EVEのタイプを予測できなかった。 0.68
Due to a lack of data with start and end times of vocal events annotated, a sliding window approach similar to Huang, where the scream detection algorithm is applied to every block in a sliding window to determine the start and end times of a scream [8] could not be implemented, and hence identifying when a scream occurs, or identifying what different kinds of screams are present within one file were not possible. 音声イベントの開始時刻と終了時刻のデータの欠如により、Huangと同様のスライドウインドウアプローチにより、スライディングウインドウ内の各ブロックに悲鳴検出アルゴリズムを適用して、悲鳴[8]の開始時刻と終了時刻を判定することができず、それによって悲鳴の発生時期を特定したり、1つのファイル内に異なる悲鳴が存在するかを特定できない。 0.68
3. DATASET Currently, there exists no publicly available dataset with annotated vocals for heavy metal. 3.データセット 現在、ヘビーメタルの注釈付きボーカルのデータセットは公開されていない。 0.58
To enable this study, as well as to facilitate future research on this topic, we present the newly created Metal Vocal Dataset (MVD). 本研究の実施と今後の研究を促進するため,新たに作成したMetal Vocal Dataset(MVD)について紹介する。 0.77
This dataset consists of 57 songs from 34 bands and 47 albums. このデータセットは、34のバンドから57曲、47のアルバムから成り立っている。 0.56
The list of songs can be found in the appendix. 曲のリストは付録に記載されている。 0.65
Most of these songs were released during the last two decades, since use of vocal effects beyond Mid Fry screams has increased in this period. これらの曲の多くは過去20年間にリリースされ、この時期にはミッドフライの悲鳴以外のボーカル効果が増している。 0.70
A playlist containing all the songs present in the dataset データセットに存在するすべての曲を含むプレイリスト 0.88
06412825651210242048 40968192Hz0641282565 121024204840968192Hz 00.511.52Time (s)06412825651210242 04840968192Hz00.511. 52Time (s)SingHigh Fry ScreamLayered ScreamLow Fry ScreamMid Fry ScreamNo Vocal807060504030201 00 06412825651220204840 9692hz06412825651210 242048409692hz00.511 .52time (s)06412825651220204 8409692hz00.511.52ti me (s)singhigh fry screamlayered screamlow fry screammid fry screamno vocal807060504030201 00 0.23
英語(論文から抽出)日本語訳スコア
Figure 2. Distribution of dataset based on song length in minutes. 図2。 曲の長さに基づくデータセットの数分間分布 0.80
Figure 4. Distribution of dataset based on total time per class. 図4。 クラスごとの合計時間に基づくデータセットの分散。 0.81
of the dataset; although the songs were selected carefully to contain all different classes, the Mid Fry scream is most prevalent in modern metal music. データセットは、すべての異なるクラスを含むように慎重に選択されたが、ミッドフライの叫び声は現代の金属音楽でもっとも広く使われている。 0.72
Figure 3. Distribution of dataset based on release year. 図3。 リリース年に基づくデータセットの配布。 0.74
3.3 Data Split was created. 3.3 データ分割 作られました 0.70
1 The distribution of the songs selected for the dataset based on the year of release is shown in Figure 3. 1 リリース年に基づくデータセットで選択された楽曲の分布を図3に示す。 0.75
The annotations have been released under the MIT license and are available online. アノテーションはMITライセンスでリリースされており、オンラインで公開されている。 0.56
2 The audio files themselves are not included, but can be retrieved using a script provided in the repository. 2 オーディオファイルそのものは含まれないが、リポジトリで提供されるスクリプトを使って検索することができる。 0.77
3.1 Data Selection The songs selected were from genres such as death metal, groove metal, progressive metal, black metal, and metal core. 3.1 データ選択 歌はデスメタル、グルーフメタル、プログレッシブメタル、ブラックメタル、メタルコアなどのジャンルから選ばれた。 0.66
The traditional subgenres of death metal, black metal and groove metal were included as they contain mostly one class of screams (mid fry screams), while modern subgenres such as metal core and progressive metal were chosen since a wide variety of vocal effects are used in these genres. デスメタル、ブラックメタル、グルーグメタルの伝統的なサブジャンルは、主に1つの種類の悲鳴(フライの悲鳴)を含むため含まれ、メタルコアやプログレッシブメタルといった現代のサブジャンルは、これらのジャンルで様々な声楽効果が使用されているため選択された。 0.67
The songs were selected with the aim to capture a wide variety in vocal styles and are listed in a playlist. 歌は様々な声楽スタイルを取り入れることを目的として選ばれ、プレイリストにリストアップされる。 0.71
1 3.2 Dataset Statistics 1 3.2 データセット統計 0.53
The distribution of the songs selected for the dataset based on the year of release is shown in Fig 3. リリース年に基づいてデータセットに選択された曲の分布を図3に示す。 0.78
The increase for more recent years reflects the increased use of vocal effects beyond mid fry screams. 近年の増加は、フライパンの鳴き声以外の音声効果の利用の増加を反映している。 0.76
There are a total of 281.6 min of audio across the 6 classes (including the ‘no vocal’ class). 6つのクラス(“no vocal”クラスを含む)に合計281.6分間のオーディオがある。 0.77
The class distribution in the dataset is visualized in Fig 4 based on the total time annotated in seconds. データセットのクラス分布は、数秒で注釈付けされた合計時間に基づいて図4で視覚化される。 0.69
The Mid Fry scream is the largest part ミドルフライの悲鳴は最大の部分です 0.60
1 https://tinyurl.com/ metal-vocal-dataset- playlist 2 https://github.com/V edantKalbag/metal-vo cal-dataset 1 https://tinyurl.com/ metal-vocal-dataset- playlist 2 https://github.com/V edantKalbag/metal-vo cal-dataset 0.16
The data was split into 3 subsets for training, testing, and validation. データはトレーニング、テスト、検証の3つのサブセットに分割された。 0.72
This was done after division of audio files into 1 second blocks as described further in Sec. 4. これは、さらにsec 4で述べられているように、オーディオファイルを1秒ブロックに分割した後に行われた。 0.67
Since the class distribution was heavily skewed towards blocks labeled ‘no vocals’, the dataset was undersampled to balance out classes. クラス分布は‘no vocals’というラベルの付いたブロックに対して大きく歪められたため、データセットはクラスのバランスを取るためにアンサンプされた。 0.60
All classes that had more samples than the class with minimum samples were undersampled to the nearest thousand, for both the 3-class as well as the 6-class problem. 最小限のサンプルを持つクラスよりも多くのサンプルを持つクラスは、3クラスでも6クラスでも最も近いクラスにアンサンプされた。 0.78
The data is accompanied by a recommended split into the subsets train, validation, and test (approx. 70:15:15). データは、推奨されたサブセットのトレイン、バリデーション、テストに分割される(約70:15:15)。 0.70
The data was split such that no band’s songs are present in both the training and test/validation sets. データは分割され、トレーニングセットとテスト/検証セットの両方にバンドの曲は存在しない。 0.78
Undersampling was applied before the split to balance the class distribution, as undersampling after the split would lead to considerably smaller test and validation sets. クラス分散のバランスをとるために分割の前にアンダーサンプリングが適用され、分割後のアンダーサンプリングはテストと検証セットをかなり小さくする。 0.76
The blocks were first divided into an approx. ブロックは最初、近似に分割された。 0.69
70:30 split, ensuring that no band was present in both subsets. 70:30 分割され、両方のサブセットにバンドが存在しないことが保証された。 0.56
This split at a band level was done to avoid overfitting any one vocalist/band and hence giving false results. バンドレベルでのこの分割は、1人のボーカリスト/バンドを過度に満たさないために行われ、結果として誤った結果が得られた。
訳抜け防止モード: バンドレベルでのこの分割は行われました いずれかのボーカリスト/バンドの過度な適合を回避し、従って偽結果を与える。
0.59
The 30% split was then divided into two equal subsets at random. 30%の分割はランダムに2つの等分部分集合に分割された。 0.70
This was done because when restricting one band to be in either the test or validation set only drastically reduced the size of these sets, and would render them useless. これは、1つのバンドをテストまたは検証セットのいずれかに制限する場合、これらのセットのサイズが劇的に小さくなり、それらが役に立たないためである。 0.69
In addition, a recommended split with imbalanced class distribution containing all data is provided as well. さらに、すべてのデータを含む不均衡なクラス分布を持つ推奨分割も提供される。 0.81
3.4 Annotation Methodology 3.4 アノテーション方法論 0.58
Since most screams in modern metal are variations of a fry scream, we have focused on these for our dataset. モダンメタルの悲鳴の多くは、フライパンの悲鳴のバリエーションなので、データセットのためにこれらに焦点を当てています。
訳抜け防止モード: 現代の金属のほとんどの悲鳴はフライの悲鳴の変種である。 データセットに焦点を合わせました
0.59
The variations are caused by a change in the shape and length of the vocal tract, where lengthening the vocal tract makes 変化は声道の形状と長さの変化によって引き起こされ、声道の長さが変化する。 0.71
4681012Duration (in minutes)051015Number of songs199019952000200 5201020152020Release year051015Number of songs1228.13 s660.43 s437.55 s280.23 s4759.24 s9530.5 sSingHigh FryLayeredLow FryMid FryNo Vocal 4681012Duration (in minutes)051015Number of songs 1990 19952000 200520102020Release year051015Number of songs1228.13 s660.43 s437.55 s280.23 s4759.24 s9530.5 sSingHigh FryLayeredLow FryMid FryNo Vocal 0.26
英語(論文から抽出)日本語訳スコア
Figure 5. Block diagram of benchmark systems. 図5。 ベンチマークシステムのブロックダイアグラム。 0.72
the scream sound lower, and vice versa. 悲鳴は低い音がする。 0.42
We have defined 3 fry scream categories based on the perceived sound: High, Mid, and Low. 我々は,高音,高音,中音,低音の3つの鳴き声カテゴリを定義した。 0.65
Thus, the vocal events were annotated with the following class labels: Sing, High Fry scream, Mid Fry scream, Low Fry scream, and Layered scream. このように、ボーカル・イベントは、sing、high fry scream、mid fry scream、low fry scream、layered screamといったクラス・レーベルでアノテートされた。 0.70
The class labeled ‘layered’ contains combinations of 2 or more other classes simultaneously (e g , Mid Fry screams and Sing, or both High and Low Fry screams). 層状」とラベル付けされたクラスは、2つ以上のクラスを同時に組み合わせている(例:Mid Fryの悲鳴とSing、またはHighとLow Fryの悲鳴)。 0.76
These songs were manually annotated using Sonic Visualiser so that the maximum time difference between the start or end of a vocal event and the annotation is less than 0.5 s. これらの歌は、音声イベントの開始時と終了時の最大時間差が0.5秒以下になるように、音声ヴィジュアライザを使って手動で注釈付けされた。 0.60
The start and end points of the vocal event were localized visually based on the spectrogram of the audio file and validated aurally. 音声ファイルのスペクトログラムに基づいて音声イベントの開始点と終了点を視覚的にローカライズし,聴力的に検証した。 0.79
An important consideration is that the categorization of some screams is subjective, and two individuals may assign class labels differently. 重要な考慮事項は、いくつかの悲鳴の分類が主観的であり、2人の個人が異なるクラスラベルを割り当てることができることである。
訳抜け防止モード: 重要な考慮事項は いくつかの悲鳴の分類は主観的であり、2人の個人が異なるクラスラベルを割り当てることができる。
0.69
For example, a ‘low-sounding’ Mid Fry scream could be perceived as a ‘high-sounding’ Low Fry scream, and vice versa. 例えば、'低音'のフライの叫び声は'高音の'低いフライの叫びと認識され、その逆も考えられる。
訳抜け防止モード: たとえば、'low- sounding ' Mid Fryの悲鳴は'high- sounding ' Low Fryの悲鳴と認識できる。 逆も
0.68
As the main criteria for labeling the screams, the vowel characteristics of the sound were used. 発声音の発声基準として,発声音の母音特性が用いられた。 0.59
Typically, a Low Fry scream will have dark vowel characteristics (/o/ or /u/), a Mid Fry scream will have vowel characteristics similar to /a/, and a High Fry scream will have characteristics around /e/ or /i/. 通常、ローフライの発声は暗い母音特性(/o/または/u/)を持ち、ミッドフライの発声は/a/に似た母音特性を持ち、ハイフライの発声は/e/または/i/の特徴を持つ。
訳抜け防止モード: 通常、ローフライの悲鳴は暗い母音の特徴(/o/または/u/)を持つ。 Mid Fry の悲鳴は /a/ と同様の母音特性を持つ そしてHigh Fryの悲鳴は/e/や/i/に特徴がある。
0.68
The labels were, thus, assigned based on how the scream sounded with respect to the perceived vowel characteristics; for instance, a scream with prominent low frequencies and vowel characteristics of /u/ or /o/ was labeled as a Low Fry scream. その結果, 母音特性に対して, 母音特性が顕著で, 母音特性がu/, または/o/である場合, 母音特性が小さい場合, 母音特性が小さい場合など, 母音特性に対して悲鳴がどう響くかに基づいてラベルが割り当てられた。
訳抜け防止モード: レーベルは、どのようにして割り当てられたのか。 知覚された母音の特徴に関して鳴く声 例えば、/u/ または /o/ の母音特性が顕著な低周波の悲鳴は、低周波の悲鳴とラベル付けされた。
0.64
4.2 Input Representation The baseline set of features consists of low level temporal and spectral features that are commonplace in Music Information Retrieval tasks. 4.2 入力表現 基本となる特徴セットは、音楽情報検索タスクに共通する低レベルの時間的特徴とスペクトル的特徴からなる。 0.76
These features are: 13 MFCCs and Delta MFCCs, RMS, ZCR, Spectral Centroid, Contrast, Flatness and Roll-off (for a feature definition see [20]). 13のmfccとdelta mfcc, rms, zcr, spectrum centroid, contrast, flatness, roll-off (機能定義については[20]を参照)。
訳抜け防止モード: これらの機能は13のMFCCとDelta MFCC、RMSである。 ZCR, Spectral Centroid, Contrast, Flatness and Roll - off (機能定義については [20 ] を参照)。
0.79
These features were extracted using the Librosa python library [21], with a window size of 2048 samples and a hop size of 1024 samples. これらの機能はlibrosa pythonライブラリ[21]を使って抽出され、ウィンドウサイズは2048サンプル、ホップサイズは1024サンプルであった。 0.80
In addition, VGGish features [22] and the Log-Mel Spectrogram were extracted. さらに,VGGishの特徴[22]とLog-Mel Spectrogramを抽出した。 0.83
We divide these features into the following feature sets: これらの特徴を以下の機能セットに分けます。 0.77
1. Feature Set 1: 13 MFCCs, Delta MFCCs, RMS, ZCR, 1. 機能セット 1: 13 MFCC, Delta MFCC, RMS, ZCR 0.78
Spectral Centroid, Contrast, Flatness and Roll-off スペクトル中心、コントラスト、平坦性、ロールオフ 0.74
2. Feature Set 2: VGGish Features 2. 機能セット2:VGGishの機能 0.81
3. Feature Set 3: 13 MFCCs and Delta MFCCs only 3. 機能セット 3: 13 MFCC と Delta MFCC のみ 0.81
4. Feature Set 4: RMS, ZCR, Spectral Centroid, Con- 4. 機能セット4:rms、zcr、スペクトルセントロイド、con- 0.66
trast, Flatness and Roll-off トラスト・平坦・ロールオフ 0.60
5. Feature Set 5: Log Mel Spectrogram 5. 機能セット 5: Log Mel Spectrogram 0.81
4.3 Feature Aggregation All features in Feature Set 1 were aggregated by taking the mean and standard deviation across each audio block (with duration 2 s). 4.3 特徴集約 Feature Set 1のすべての機能は、各オーディオブロックの平均値と標準値の偏差(持続時間2秒)で集約された。 0.74
The features in Feature Set 1, 2, 3, and 4 were all z-score normalized across the entire training set to return a feature vector with 0 mean and unit standard deviation. Feature Set 1, 2, 3, 4の機能は、すべてZスコアでトレーニングセット全体にわたって正規化され、0平均とユニット標準偏差を持つ特徴ベクトルを返す。 0.83
The mel spectrogram input was converted to log scale before use. melスペクトログラム入力は使用前にログスケールに変換された。 0.75
4. BENCHMARK METHODS 4.ベンチマーク方法 0.66
4.4 Classifiers A block diagram of the systems created as a benchmark for future work is shown in Fig 5, and is described in detail in the following. 4.4分類器 将来の作業のベンチマークとして作成されたシステムのブロック図は、図5に示されており、以下に詳述する。 0.64
4.1 Pre-processing The audio files were passed through the Spleeter source separation algorithm [19] to separate the vocals from the other components and then divided into overlapping blocks of length 2 s with a 1 s hop size. 4.1前処理 音声ファイルはspleeter source separation algorithm [19] に渡され、他のコンポーネントからボーカルを分離し、1sホップサイズで長さ2 sの重なり合うブロックに分割する。 0.63
Each 2 s block is one observation to be classified. 各2sブロックは1つの観測対象である。 0.78
All audio files were resampled to a sample rate of 44100 Hz, normalized and downmixed to mono. 全てのオーディオファイルは44100Hzのサンプルレートに再サンプリングされ、正規化されモノにダウンミックスされた。 0.69
Two multi-class classifiers were used to classify each audio block based on the feature vector. 特徴ベクトルに基づいて2つのマルチクラス分類器を用いて各オーディオブロックを分類した。 0.75
The different classifiers used are a Support Vector Machine (SVM) and a Convolutional Neural Network (CNN). 異なる分類器として、SVM(Support Vector Machine)とCNN(Convolutional Neural Network)がある。 0.76
The CNN consists of 3 convolutional layers with dimensions 256, 512, and 1024, each followed by max pooling, respectively, 3 dense layers with dimensions 256, 64, and 16, and an output layer. CNNは、それぞれ256, 512, 1024の3つの畳み込み層と、256, 64, 16の3つの高密度層と、出力層で構成されている。 0.58
5. EXPERIMENTS The system was tested for two different sets of labels: a 3 class problem (sing, scream, no vocal), as well as a 6 class problem (containing all the 5 labels from the dataset as well as no vocal). 5.実験 このシステムは、2つの異なるラベルのセットでテストされた: 3つのクラスの問題(歌、叫び、ボーカルなし)と6つのクラスの問題(データセットの5つのラベルすべてとボーカルなし)である。 0.68
PreProcessingFeature Extraction& AggregationClassific ationDivide into 2 second blocksVocal ExtractionPrediction Audio 前処理特徴抽出とアグリゲーションクラス化ディヴィッドの2秒ブロックボク抽出前ディヴィオへの展開 0.37
英語(論文から抽出)日本語訳スコア
Configuration acc Feature Set 1 + SVM 82.20 Feature Set 2 + SVM 82.06 Feature Set 3 + SVM 77.12 Feature Set 4 + SVM 79.55 87.33 Feature Set 5 + CNN Configuration acc Feature Set 1 + SVM 82.20 Feature Set 2 + SVM 82.06 Feature Set 3 + SVM 77.12 Feature Set 4 + SVM 79.55 87.33 Feature Set 5 + CNN 0.45
bal-acc 82.10 82.23 76.95 79.40 87.58 bal-acc 82.10 82.23 76.95 79.40 87.58 0.22
f1 82.18 82.10 77.21 79.60 87.42 F1 82.18 82.10 77.21 79.60 87.42 0.48
Table 1. Results for the 3-class problem in Exp. 1 (values shown in %) 表1。 Exp.1における3クラス問題の結果(%に示す値) 0.78
5.1 Experiment 1: 3-Class Problem All scream classes are combined into a single class, resulting in the target set of classes Sing, Scream, and No Vocal. 5.1 実験1:3クラス問題 すべての悲鳴クラスは1つのクラスにまとめられ、Sing, Scream, No Vocalの各クラスがターゲットとなる。 0.82
The following configuration were evaluated: 以下の構成が評価された。 0.64
1. Feature Set 1 + SVM 1. Feature Set 1 + SVM 0.42
2. Feature Set 2 + SVM 2. Feature Set 2 + SVM 0.42
3. Feature Set 3 + SVM 3. Feature Set 3 + SVM 0.42
4. Feature Set 4 + SVM 4.Feature Set 4 + SVM 0.42
5. Feature Set 5 + CNN 5. Feature Set 5 + CNN 0.42
5.2 Experiment 2: 6-Class Problem As opposed to Experiment 1, Experiment 2 treats each scream class separately, resulting in the target set of classes Sing, Low Fry, Mid Fry, High Fry, Layered, and No Vocal. 5.2実験2:6クラス問題 実験1とは対照的に実験2はそれぞれの悲鳴クラスを個別に扱い、その結果、Sing, Low Fry, Mid Fry, High Fry, Layered, No Vocalの各クラスを対象とする。 0.85
This experiment investigates the two best-performing SVM configurations and the CNN configuration from Exp. 1: 本実験は,2つの最高のSVM構成とCNN構成をExp.1から検証する。 0.74
1. Feature Set 1 + SVM 1. Feature Set 1 + SVM 0.42
2. Feature Set 2 + SVM 2. Feature Set 2 + SVM 0.42
3. Feature Set 5 + CNN 3. 機能セット5+cnn 0.62
5.3 Performance Metrics The performance metrics used in this study are: 5.3 パフォーマンスメトリクス この研究で使用されるパフォーマンスメトリクスは以下のとおりです。 0.65
1. Accuracy: acc 2. Macro-Accuracy: bal-acc 1.精度:acc 2.マクロ精度:bal-acc 0.54
3. Balanced F1 Score: f1 3.バランスF1スコア:f1 0.81
These metrics were computed with the sklearn python library [23]. これらのメトリクスはsklearn pythonライブラリ[23]で計算された。 0.75
6. BENCHMARK RESULTS 6. ベンチマーク結果 0.70
The results of both the 3-class and 6-class classification problem are presented below, followed by a discussion of the results. 3級と6級の両方の分類問題の結果を以下に示し、その結果について考察する。
訳抜け防止モード: 下記の3クラスと6クラスの両方の分類問題の結果を示す。 続いて 結果の議論が続きます。
0.80
The results for a 3 class implementation, with blocks being classified into sing, scream and no vocal are compared to a 6 class implementation, where the audio block was classified into Sing, Low Fry scream, Mid Fry scream, High Fry scream, Layered screams and No Vocal. 音声ブロックをsing,low fry scream,mid fry scream,high fry scream,layered screams,no vocalに分類した6クラス実装と比較した。
訳抜け防止モード: 3つのクラスの実装の結果、ブロックはsingに分類される。 叫び声と発声音は6つのクラスに比較される。 音声ブロックは「sing」と「low fry scream」に分類されました フライドレイプ、フライドレイプ、レイヤードレイプ、ボーカルなし。
0.73
6.1 Experiment 1: 3-Class Results The results for each experiment are shown in Table 1 and the class-wise recall of each combination are shown in Fig 6. 実験1:3クラスの結果 実験結果は表1に示され、各組み合わせのクラスのリコールは図6に示されます。
訳抜け防止モード: 6.1 実験1 : 3-クラス結果 各実験の結果を表1とクラスに示す。 各組み合わせの賢明なリコールを図6に示す。
0.82
Figure 7 shows the t-SNE plot of Feature Set 1, and we can see a distinction between the 3 different classes, although some overlap between the classes Sing and Scream. 図7は、Feature Set 1のt-SNEプロットを示し、Sing と Scream のクラスの間には重複があるが、3つの異なるクラスの間に区別が見られる。 0.76
We can make the following observations. 以下の観察を行うことができる。 0.71
First, combined Feature Set 1 outperforms Feature Sets 3 and 4 with a gap of roughly 5%. まず、Feature Set 1の組み合わせは、Feature Sets 3と4を約5%の差で上回っている。 0.72
This is expected as these sets are subsets これらの集合は部分集合であるため、これは期待できる。 0.43
Figure 6. Class-wise recall for the 3-class problem. 図6。 3クラス問題のクラスワイドリコール。 0.71
Figure 7. t-SNE projections of the feature space (Feature Set 1). 図7。 t-SNE は特徴空間の射影である(Feature Set 1)。 0.73
of Feature Set 1. Feature Set 1 の略。 0.74
Second, the combined Feature Set 1 and the VGGish Feature Set 2 show the best performance and perform similarly with recall above 82%. 第2に、Feature Set 1とVGGish Feature Set 2の組み合わせは、最高のパフォーマンスを示し、82%以上のリコールと同じようなパフォーマンスを示している。 0.63
This means that the VGGish features, trained on a different task, contain a similar, semantically meaningful, information for classification as the combination of common baseline features. これは、異なるタスクでトレーニングされたVGGishの機能は、共通のベースライン機能の組み合わせとして分類するための類似した意味論的意味のある情報を含んでいることを意味する。 0.63
To a degree it is surprising that Feature Set 2 does not clearly outperform the traditional feature set as VGGish features have been shown to be powerful in music tasks such as musical instrument classification [24]. 楽器分類[24]などの音楽タスクにおいて、VGGishの特徴が強力であることから、機能セット2が従来の特徴セットよりも明らかに優れているわけではないことは、ある程度驚きである。 0.73
Third, the results show that the CNN with spectrogram input is able to detect the presence of screams with 87.6% balanced accuracy, which is notably higher accuracy than any SVM-based approach. 第3に、スペクトログラム入力を持つcnnは87.6%のバランスの取れた精度で悲鳴の存在を検出できることを示した。
訳抜け防止モード: 第三に、スペクトル入力を持つCNNは87.6%の精度で悲鳴を検知できることを示した。 これはSVMベースのアプローチよりも特に正確です。
0.65
It seems that the CNN is able to utilize the information in the spectrogram and is able to detect spectral patterns efficiently. CNNは分光図の情報を活用でき、スペクトルパターンを効率的に検出できるようだ。 0.63
6.2 Experiment 2: 6-Class Results 6.2 Experiment 2: 6-class Results 0.37
The results of the 6-class problem are given in Table 2. 6クラス問題の結果が表2で示されています。 0.78
We can observe that the performance is considerably lower for the 6-class problem with the two top-performing feature sets from Exp. 1. Exp.1の上位2つの機能セットにおいて、6クラス問題に対して、パフォーマンスがかなり低いことが分かる。 0.71
The VGGish features in Feature Set 2 seem to slightly outperform the low-level Feature Set 1. Feature Set 2のVGGish機能は、低レベルのFeature Set 1よりわずかに優れています。 0.81
The CNN did not perform as well as the combination of CNNは、その組み合わせのようには機能しなかった。 0.83
SingScreamNo Vocal707580859095100 Class-wise Recall (%)81.979.584.585.07 5.686.289.581.391.88 1.979.584.585.075.68 6.289.581.391.8Featu re Set 1 + SVMFeature Set 2 + SVMFeature Set 5 + CNN50050100t-SNE dimension 250050t-SNE dimension 1SingScreamNo Vocal SingScreamNo Vocal7075809095100Cl ass-wise Recall (%)81.979.584.585.07 5.686.289.581.391.88 1.979.584.585.075.68 6.289.581.391.8Featu re Set 1 + SVMFeature Set 2 + SVMFeature Set 5 + CNN50050100t-SNE dimension 250050t-SNE dimension 1SingScreamNo Vocal 0.20
英語(論文から抽出)日本語訳スコア
Configuration acc Feature Set 1 + SVM 44.24 Feature Set 2 + SVM 45.53 42.89 Feature Set 5 + CNN Configuration acc Feature Set 1 + SVM 44.24 Feature Set 2 + SVM 45.53 42.89 Feature Set 5 + CNN 0.46
bal-acc 41.92 45.91 40.87 bal-acc 41.92 45.91 40.87 0.23
f1 38.03 40.13 38.79 F1 38.03 40.13 38.79 0.49
Table 2. Results for the 6-class problem in Exp. 2 (values shown in %) 表2。 Exp.2における6クラス問題の結果(%に示す値) 0.77
Figure 8. Class-wise recall for the 6-class problem. 図8。 6クラス問題のクラスワイドリコール。 0.72
VGGish features and SVM; the results of the CNN appear to be biased towards High Fry screams (see below). VGGishの機能とSVM。CNNの結果はHigh Fryの悲鳴に偏っているようだ(下記参照)。 0.71
Looking at the class-wise recall in Fig 8, we observe that the systems could still identify the sung vocal and absence of vocals with high accuracy in the same range as the 3 class results shown above, however, they could not accurately distinguish between the different types of screams. また,第8図のクラスワイドリコールでは,上述の3クラスの結果と同一範囲で高い精度で歌声と無声を識別できるが,異なるタイプの悲鳴を正確に区別することはできない。 0.63
We also see that the recall of the High Fry scream in the CNN is significantly higher than the other experiments, which is due to the classifier predicting most screams to be High Fry screams. また,cnnにおける高鳴き声のリコールは,ほとんどの鳴き声を高鳴き声と予測する分類器により,他の実験よりも有意に高い値を示した。 0.54
Investigating the confusion matrix in Fig 9 gives us more details of the problem with the screams. fig 9における混乱マトリクスの調査は、悲鳴の問題を詳しく説明している。 0.72
We can see that several classes are being predicted incorrectly. いくつかのクラスが誤って予測されていることが分かります。 0.56
Blocks labeled ‘Layered’ were often predicted as other classes, especially ’Sing’ and ’High Fry’ this could be because the layered class contains combinations of different classes, including the ‘Sing’ vocals. 階層化されたクラスには‘Sing’ボーカルを含むさまざまなクラスの組み合わせが含まれているため、‘Layered’というラベル付きブロックは、他のクラス、特に‘Sing’や‘High Fry’と予測されることが多い。 0.74
We also see that ‘Low Fry’ screams are often predicted as ‘Mid Fry’ due to the high degree of overlap between these classes in the feature space. また、機能領域におけるこれらのクラス間の重複度の高さから、‘Low Fry’の悲鳴は‘Mid Fry’と予測されることが多い。 0.77
7. CONCLUSION 7.コンキュレーション 0.72
We introduced a new annotated dataset to aid and encourage further research in vocal detection in heavy metal music. 重金属音楽における音声検出のさらなる研究を支援する新しい注釈付きデータセットを導入した。 0.76
Both the dataset and code have been made publicly available. データセットとコードの両方が公開されている。 0.76
While targeting scream detection, the dataset is also suitable for related tasks such as Vocal Activity Detection. 悲鳴検出を目標としながら、データセットは音声活動検出などの関連するタスクにも適している。 0.71
We presented a set of benchmark experiments on the automatic detection and classification of vocals in heavy metal music with the presented dataset. そこで本研究では,重金属音楽におけるボーカルの自動検出と分類に関するベンチマーク実験を行った。 0.76
In these experiments, various temporal, spectral, and cepstral, and VGGIsh features were evaluated and compared with a CNN with log-mel spectrogram input. これらの実験では, 時間, スペクトル, ケプストラー, およびVGGIshの特徴を評価し, 対数メルスペクトル入力を用いたCNNと比較した。 0.77
In conclusion, with the dataset presented in this paper, we 結論として この論文のデータセットでは 0.61
Figure 9. Confusion matrix for the 6-class problem (SVM). 図9。 6-class問題(svm)の混乱行列。 0.73
were able to detect the presence of vocal events and classify them into sung vocal and screamed vocal with good accuracy. 音声イベントの存在を検知し、それを歌声に分類し、精度良く叫ぶことができた。 0.58
However, the same cannot be said for classifying the screams into the different types, as the different scream classes overlap within the feature space and cannot be separated easily. しかし、異なる悲鳴クラスが特徴空間内で重なり合い、容易に分離できないため、悲鳴を異なる種類に分類する上でも同じことは言えない。 0.64
Thus, the dataset provides a new challenging task that can currently not be solved with satisfying results. したがって、データセットは、結果を満たすことで現在解決できない、新しい困難なタスクを提供する。 0.74
7.1 Future Work There is anecdotal evidence online and within the heavy metal community for additional categories of vocal effects such as ‘guttural vocals’ and ‘pig squeals’. 7.1 今後の課題 オンライン上でもヘビーメタルコミュニティ内でも,‘Guttural vocals’や‘pig squeals’といった,ボーカル効果の新たなカテゴリに関する逸話がある。 0.64
Pending further investigation into this, we plan the extension of the dataset with additional audio files as well as extending the annotations to include these additional subsets of extreme vocal effects. これに関するさらなる調査の後、追加の音声ファイルによるデータセットの拡張と、これらの極端な声効果のサブセットを含むアノテーションの拡張を計画している。 0.84
At present, the dataset has limited samples containing clean vocals sung over distorted instrumental sections, as most of the sections containing clean vocals in the songs used were also softer in nature. 現在、このデータセットは、曲中のクリーンなボーカルを含む部分の大半が自然に柔らかくなっているため、歪んだ楽器セクションで歌われるクリーンなボーカルを含む限られたサンプルを持っている。
訳抜け防止モード: 現在、データセットは、歪んだ楽器セクションで歌われるクリーンボーカルを含む限られたサンプルを持っている。 歌の中の清潔なボーカルを含む部分のほとんどは 自然の柔らかい部分です
0.66
The dataset also has fewer samples of Low and High Fry screams (this is representative of their use in modern metal), and can be expanded upon by including further examples of these vocals. このデータセットには、ロー・アンド・ハイ・フライの悲鳴のサンプルも少なく(これは現代の金属での使用を代表している)、これらのボーカルのさらなる例を含めることで拡張することができる。
訳抜け防止モード: データセットには、低音と高音の叫び声のサンプルも少ない (現代金属における使用を代表する) そして、これらのボーカルのさらなる例を含めることで拡張することができる。
0.83
8. REFERENCES [1] O. Nieto, “Unsupervised clustering of extreme vocal effects,” in Proceedings of the 10th International Conference Advances in Quantitative Laryngology, 2013, p. 115. 8.参考文献 [1] O. Nieto, "Unsupervised clustering of extreme vocal effects" in Proceedings of the 10th International Conference Advances in Quantitative Laryngology, 2013, pp. 115。
訳抜け防止モード: 8.参考文献 [1]o. nieto, “unsupervised clustering of extreme vocal effects” 第10回国際会議紀要「量的喉頭学の進歩」 2013年、p.115。
0.72
[2] N. J. Purcell, Death Metal Music: The Passion and [2] N. J. Purcell, Death Metal Music: The Passion and The Passion 0.44
Politics of a Subculture. サブカルチャーの政治学者。 0.59
McFarland, 2003. マクファーランド、2003年。 0.63
[3] O. Nieto, “Voice transformations for extreme vocal effects,” Master’s thesis, Pompeu Fabra University, 2008. [3] o. nieto, “voice transformations for extreme vocal effects”, master’s thesis, pompeu fabra university, 2008 (英語)
訳抜け防止モード: O. Nieto, “Voice transformations for extreme vocal effects”[3]O. Nieto, O. 修士論文『Pompeu Fabra University』2008年。
0.85
[4] E. Smialek, P. Depalle, and D. Brackett, “Musical aspects of vowel formants in the extreme metal voice,” International Conference on Digital Audio Effects Conference, pp. 1–8, 2012. 4] e. smialek, p. depalle, d. brackett, "musical aspects of vowel formants in the extreme metal voice", international conference on digital audio effects conference, pp. 1–8, 2012
訳抜け防止モード: 4 ] e. smialek, p. depalle, d. brackett。 『極端な金属声における母音のフォルマントの音楽的側面』 international conference on digital audio effects conference, pp. 1–8, 2012 を参照。
0.80
SingHigh FryLayeredLow FryMid FryNo Vocal020406080100Cla ss-wise Recall (%)80381633382844691 6378279621491979Feat ure Set 1 + SVMFeature Set 2 + SVMFeature Set 5 + CNNSingHigh FryLayeredLow FryMid FryNo VocalsPredicted labelSingHigh FryLayeredLow FryMid FryNo VocalsActual label0.840.030.040.0 20.030.050.090.460.0 90.040.180.140.310.2 90.090.100.150.060.0 30.220.090.160.490.0 00.130.300.080.070.3 70.040.050.070.010.0 20.020.820.00.20.40. 60.8 SingHigh FryLayeredLow FryMid Vocals Predicted labelSingHigh FryLayeredLow FryMid FryNo VocalsActual label0.840.030.040.0 20.030.050.0060.090. 040.180.143833383844 69378272149 1979Feature Set 1 + SVMFeature Set 2 + SVMFeature Set 5 + CNNSingHigh FryLayeredLow FryMid FryNo Vocals Predicted labelSingHigh FryLayeredLow FryMid FryNo VocalsActual label0.840.030.040.0 30.040.020.030.050.0 90.460.090.040.180.1 430.290.040.180.290. 090.180.180.180.30.1 80.180.180.30.30.30. 30.020.030.020.030.0 20.00.00.00.00.040.0 20.040.020.040.020.0 40.020.040.02.02.02. 02.02.02.02.02.02.02 .02.02.02.02.02.02.0 2.02.02.02
訳抜け防止モード: SingHigh FryLayeredLow FryMid Vocal020406080100Cla ss - wise Recall (% ) 80381633383828446937 827962149 1979Feature Set 1 SVMFeature Set 2 + SVMFeature Set 5 + CNNSingHigh FryLayeredLow FryMid Vocals Predicted labelSingHigh FryLayeredLow FryMid Fryno VocalsActual label0.840.030.040.0 20.030.050.090.460.0 90.040.180.140.310.2 90.090.100.150.060.0 30.220.090.160.490.0 00.130.080.070.370.0 40.050.070.010.020.0 0.20.20.40.60.8
0.16
英語(論文から抽出)日本語訳スコア
[5] C. T. Ishi, K. [5]C.T.イシ,K。 0.37
-I. Sakakibara, H. Ishiguro, and N. Hagita, “A method for automatic detection of vocal fry,” IEEE transactions on audio, speech, and language processing, vol. -私。 sakakibara, h. ishiguro, n. hagita, “a method for automatic detection of vocal fry”, ieee transactions on audio, speech, and language processing, vol. 音声、音声、言語処理に関するトランザクション。 0.56
16, no. 1, pp. 47–56, 2007. 16, No. 1, pp. 47-56, 2007。 0.86
[17] M. Guzman, K. Acevedo, F. Leiva, V. Ortiz, N. Hormazabal, and C. Quezada, “Aerodynamic characteristics of growl voice and reinforced falsetto in metal singing,” Journal of Voice, vol. M. Guzman, K. Acevedo, F. Leiva, V. Ortiz, N. Hormazabal, C. Quezada, “金属歌唱における成長声と強化偽音の空気力学特性”。
訳抜け防止モード: M. Guzman, K. Acevedo, F. Leiva, V. Ortiz, N. Hormazabal, and C. Quezada, “金属歌唱におけるグロール音声と強化偽音の空力特性” Journal of Voice』に収録。
0.82
33, no. 5, pp. 803–e7, 2019. 33, No. 5, pp. 803–e7, 2019。 0.94
[18] K. Kato and A. Ito, “Acoustic features and auditory impressions of death growl and screaming voice,” in 9th International Conference on Intelligent Information Hiding and Multimedia Signal Processing. 第9回知的情報隠蔽とマルチメディア信号処理に関する国際会議において,[18]k.kato,a. ito両氏は,“acoustic features and hearing impressions of death growl and screaming voice”と題した講演を行った。 0.68
IEEE, 2013, pp. 460–463. IEEE、2013年、p.460-463。 0.66
[19] R. Hennequin, A. Khlif, F. Voituret, and M. Moussallam, “Spleeter: a fast and efficient music source separation tool with pre-trained models,” Journal of Open Source Software, vol. R. Hennequin, A. Khlif, F. Voituret, M. Moussallam, “Spleeter: 訓練済みのモデルによる高速で効率的な音楽ソース分離ツール。
訳抜け防止モード: [19 ] R. Hennequin, A. Khlif, F. Voituret, そしてM. Moussallamは、“Spleeter: 事前訓練されたモデルによる高速で効率的な音源分離ツール”だ。 Journal of Open Source Software, vol。
0.80
5, p. 2154, 2020. 5p. 2154, 2020。 0.76
[20] A. Lerch, An Introduction to Audio Content Analysis: Applications in Signal Processing and Music Informatics. 20] a. lerch, a introduction to audio content analysis: applications in signal processing and music informatics. 0.38
Hoboken: Wiley-IEEE Press, 2012. hoboken: wiley-ieee press、2012年。 0.62
[21] B. McFee, C. Raffel, D. Liang, D. P. Ellis, M. McVicar, E. Battenberg, and O. Nieto, “librosa: Audio and music signal analysis in python,” in Proceedings of the 14th python in science conference, vol. 21] b. mcfee, c. raffel, d. liang, d. p. ellis, m. mcvicar, e. battenberg, and o. nieto, “librosa: audio and music signal analysis in python” in the 14th python in science conference, vol.
訳抜け防止モード: 21 ] b. mcfee, c. raffel, d. liang, d. p. ellis、m. mcvicar、e. battenberg、o. nieto。 第14回python in science conferenceの議事録の中で,“librosa: audio and music signal analysis in python, ”が紹介されている。
0.77
8, 2015. [22] S. Hershey, S. Chaudhuri, D. P. Ellis, J. F. Gemmeke, A. Jansen, R. C. Moore, M. Plakal, D. Platt, R. A. Saurous, B. Seybold, and others, “CNN architectures for large-scale audio classification,” in Proceedings of the International Conference on Acoustics, Speech and Signal Processing. 8, 2015. S. Hershey, S. Chaudhuri, D. P. Ellis, J. F. Gemmeke, A. Jansen, R. C. Moore, M. Plakal, D. Platt, R. A. Saurous, B. Seybold, その他, “CNN architectures for large-scale audio classification” in Proceedings of the International Conference on Acoustics, Speech and Signal Processing.
訳抜け防止モード: 8, 2015. [22 ]S. Hershey, S. Chaudhuri, D. P. Ellis, J.F. Gemmeke, A. Jansen, R. C. Moore, M. Plakal D. Platt、R. A. Saurous、B. Seyboldなど。 国際音響・音声・信号処理会議における「大規模音声分類のためのCNNアーキテクチャ」の成果
0.66
IEEE, 2017, pp. 131–135. IEEE、2017年、p.131-135。 0.77
[23] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, and E. Duchesnay, “Scikit-learn: Machine learning in Python,” Journal of Machine Learning Research, vol. F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion, O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, E. Duchesnay, “Scikit-learn: Machine Learning in Python”, Journal of Machine Learning Research, vol. 0.49
12, pp. 2825–2830, 2011. 12, pp. 2825–2830, 2011。 0.88
[24] S. Gururani, M. Sharma, and A. Lerch, “An Attention Mechanism for Music Instrument Recognition,” in Proceedings of the International Society for Music Information Retrieval Conference (ISMIR). S. Gururani, M. Sharma, A. Lerch, “An Attention Mechanism for Music Instrument Recognition” in Proceeds of the International Society for Music Information Retrieval Conference (ISMIR)
訳抜け防止モード: [24 ]S.Gururani,M.Sharma, A.Lerch 国際音楽情報検索会議(ISMIR)における「音楽機器認識の注意機構」
0.61
Delft: International Society for Music Information Retrieval (ISMIR), 2019. 国際音楽情報検索協会(ISMIR)、2019年。 0.46
[6] E. Smialek, P. Depalle, and D. Brackett, “A spectrographic analysis of vocal techniques in extreme metal for musicological analysis,” in Proceedings of the International Computer Music Conference, 2012. 6] e. smialek, p. depalle, d. brackett, “a spectrographic analysis of vocal techniques in extreme metal for musicological analysis” in the proceedings of the international computer music conference, 2012
訳抜け防止モード: [6 ] E. Smialek, P. Depalle, D. Brackett. 「音楽学的分析のための極端金属中の発声技法の分光分析」 In Proceedings of the International Computer Music Conference , 2012
0.80
[7] K. -I. Sakakibara, L. Fuks, H. Imagawa, N. Tayama, and others, “Growl voice in ethnic and pop styles,” in Proceedings of the International Symposium on Musical Acoustics, 2004. [7]K。 -私。 坂木原、L.fuks、H.imgawa、N. Tayama、2004年度国際音楽音響シンポジウム紀要「民族・ポップスタイルのグロール音声」など。 0.45
[8] W. Huang, T. K. Chiew, H. Li, T. S. Kok, and J. Biswas, “Scream detection for home applications,” in Proceedings of the Conference on Industrial Electronics and Applications. 8] w. huang, t. k. chiew, h. li, t.s. kok, j. biswas, “scream detection for home applications”は、産業用エレクトロニクスと応用に関するカンファレンスの議事録だ。 0.71
IEEE, 2010, pp. 2115–2120. IEEE, 2010, pp. 2115–2120。 0.90
[9] A. Rabaoui, M. Davy, S. Rossignol, Z. Lachiri, and N. Ellouze, “Improved one-class svm classifier for sounds classification,” in Conference on Advanced Video and Signal Based Surveillance, 2007, pp. 117– 122. A. Rabaoui, M. Davy, S. Rossignol, Z. Lachiri, N. Ellouze, "Improved one-class svm classification for sound classification" on Conference on Advanced Video and Signal Based Surveillance, 2007 pp. 117–122。
訳抜け防止モード: [9]A. Rabaoui, M. Davy, S. Rossignol Z. Lachiri,N. Ellouze, “改善された1 - 音の分類のためのクラスsvm分類器” 2007年度先端映像・信号に基づくサーベイランス会議報告 pp . 117 – 122 .
0.80
[10] P. Laffitte, D. Sodoyer, C. Tatkeu, and L. Girin, “Deep neural networks for automatic detection of screams and shouted speech in subway trains,” in International Conference on Acoustics, Speech and Signal Processing, 2016, pp. 6460–6464. P. Laffitte, D. Sodoyer, C. Tatkeu, L. Girin, “Deep Neural Network for Automatic detection of screams and shouted speech in subway train”. International Conference on Acoustics, Speech and Signal Processing, 2016. 6460–6464. (英語)
訳抜け防止モード: [10 ]P. Laffitte, D. Sodoyer, C. Tatkeu, そしてL. Girinは、“地下鉄の電車の中で悲鳴や叫び声を自動的に検出するディープニューラルネットワーク”だ。 2016年「音響・音声・信号処理国際会議」に参加して pp.6460-6464。
0.67
[11] M. K. Nandwana, A. Ziaei, and J. H. Hansen, “Robust unsupervised detection of human screams in noisy acoustic environments,” in Proceedings of the International Conference on Acoustics, Speech and Signal Processing. 11] m. k. nandwana, a. ziaei, j. h. hansen, “robust unsupervised detection of human screams in noisy acoustic environment” は、国際音響・音声・信号処理会議(international conference on acoustics, speech and signal processing)の議事録である。 0.70
IEEE, 2015, pp. 161–165. IEEE, 2015, pp. 161–165。 0.91
[12] J. Pohjalainen, P. Alku, and T. Kinnunen, “Shout detection in noise,” in Proceedings of the International Conference on Acoustics, Speech and Signal Processing. 12] j. pohjalainen, p. alku, t. kinnunen, "shout detection in noise", 国際音響・音声・信号処理会議紀要 0.59
IEEE, 2011, pp. 4968–4971. IEEE, 2011, pp. 4968-4971。 0.80
[13] N. Hayasaka, A. Kawamura, and N. Sasaoka, “Noiserobust scream detection using band-limited spectral entropy,” AEU - International Journal of Electronics and Communications, vol. N. Haasaka, A. Kawamura, and N. Sasaoka, “Noiserobust scream detection using band-limited spectrum entropy”, AEU - International Journal of Electronics and Communications, Vol. 0.40
76, pp. 117–124, 2017. 76, pp. 117-124, 2017。 0.42
[14] C. Eckers, D. H¨utz, M. Kob, P. Murphy, D. Houben, and B. Lehnert, “Voice production in death metal singers,” Proceedings of the International Conference on Acoustics/35th German Annual Conference on Acoustics, pp. 1747–1750, 2009. 14] c. eckers, d. h sutz, m. kob, p. murphy, d. houben, b. lehnert, "voice production in death metal singers", proceedings of the international conference on acoustics/35th german annual conference on acoustics, pp. 1747–1750, 2009 0.42
[15] P. Ribaldini, “Heavy metal vocal technique terminology compendium: A poietic perspective,” Master’s thesis, University of Helsinki, 2019. ヘルシンキ大学の修士論文“Heavy metal vocal technique terminology compendium: A poietic perspective”[15] P. Ribaldini, 2019。 0.62
[16] A. Loscos and J. Bonada, “Emulating rough and growl voice in spectral domain,” in Proceedings of the International Conference on Digital Audio Effects, 2004, pp. 49–52. [16] a. loscos, j. bonada, “emulating rough and growl voice in spectral domain” in the international conference on digital audio effects, 2004, pp. 49-52. (英語)
訳抜け防止モード: [16 ]A. LoscosとJ. Bonadaは,「スペクトル領域における粗く成長した声をエミュレートする」 2004年度デジタルオーディオ効果国際会議の報告 pp.49-52。
0.79
英語(論文から抽出)日本語訳スコア
9. APPENDIX The following songs were included in the dataset (Song No. Artist – Song Name): 第9条 付録 以下の曲がデータセットに含まれている(song no. artist – song name)。 0.72
54. Textures – Old Days Born Anew 54. テクスチャ – 生まれたばかりの古い日 0.88
55. Thy Art Is Murder – Reign Of Darkness 55歳。アートは暗さを無視する 0.47
56. Veil of Maya – Overthrow 56. マヤのベール - オーバースロー 0.64
57. Wintersun – Time 57.ウィンターサン - 時間 0.71
1. Abbath – Ashes Of The Damned 1.アブバス (abbath) - 地獄の灰。 0.54
2. After The Burial – Lost In The Static 2. 埋葬後 - 静的に失われた 0.65
3. Amon Amarth – Destroyer of the Universe 3. アモン・アマルト - 宇宙の破壊者。 0.65
4. Amon Amarth – Live For The Kill エイモン・アマース(Amon Amarth) - 殺人の生みの親。 0.57
5. Amon Amarth – Twilight Of The Thunder God アモン・アマース(Amon Amarth) - 雷の神の二光 0.66
6. Be’lakor – Venator 6.Be’lakor - ベネター 0.78
7. Behemoth – Ecclesia Diabolica Catholica 7. ベヘモス - エクレシア・ディアボリカ・カトリック 0.65
8. Behemoth – Bartzabel 八 ベヘモス(Behemoth)-バルツァベル(Bartzabel) 0.45
9. Behemoth – Blow Your Trumpets Gabriel 9.Behemoth – Trumpets Gabrielをフォローする 0.82
10. Born of Osiris – White Nile 10.オシリスの生まれた−ホワイトナイル 0.63
11. Cannibal Corpse – High Velocity Impact Spatter 11. ハンニバル軍団 - 高速衝突散布機 0.54
12. Children of Bodom – Under Grass And Clover 12. ボドムの子供たち - グラスとクローバーの下に 0.71
13. Children of Bodom – Living Dead Beat 13. ボドムの子たち - 生死のビート 0.76
14. Children Of Bodom – Are You Dead Yet 14. ボドムの子たち―あなたはまだ死んでいる 0.69
15. Children of Bodom – Sixpounder 15.ボドムの子:6ポンド 0.61
16. Children Of Bodom – Everytime I Die 16.ボドムの子たち - 私が死ぬたびに 0.65
17. Children Of Bodom – In Your Face 17. ボドムの子たち - あなたの顔に 0.76
18. Dark Tranquillity – Lost to Apathy 第18条 暗黒の静寂 - 無関心で失われる 0.58
19. Dark Tranquillity – Atoma 19. 暗黒の静寂 - アトマ 0.66
20. Death – Pull the Plug 20. 死亡 - プラグを抜いて 0.82
21. Death – The Philosopher 21. 死 - 哲学者。 0.83
22. Decapitated – Kill The Cult 22. 斬首 - カルトを殺す。 0.65
23. Decapitated – Blood Mantra 23. 斬首 - 血のマントラ 0.81
24. Ensiferum – In My Sword I Trust 24. Ensiferum – 私のSword I Trust 0.76
25. Enslaved – Caravans To The Outer Worlds 25. 奴隷化 – キャラバンを外の世界へ 0.68
26. Godless – Deathcult 26.無神 - 死神。 0.77
27. Gojira – Stranded 28. Gojira – Silvera 27.ゴジラ-帯状 28.ゴジラ-シエラ 0.61
29. Immortal – Northern Chaos Gods 29.不死-北朝の神々 0.58
30. In Flames – Cloud Connected 30. 炎の中で - クラウド接続 0.79
31. Lamb of God – Memento Mori 31.「神のラム」-森目メント 0.65
32. Lamb of God – Laid to Rest 32. 神の子羊 - 休息に置かれる 0.74
33. Lamb of God – Omerta 33. 神のラム - オメルタ 0.71
34. Lamb of God – Now You’ve Got Something to Die 34. 神のラム(Lamb of God) - 死に物になった 0.64
35. Lamb of God – The Faded Line 35. 神のラム - 死の線 0.65
36. Ne Obliviscaris – Pyrrhic 36.Ne Obliviscaris – Pyrrhic 0.41
37. Ne Obliviscaris – And Plague Flowers the Kaleido- 37.ne obliviscaris--ペスト・フラワーズ・カレイド- 0.62
For scope 38. Nevermore – Born のために 範囲 38.Nevermore - 生まれ。 0.68
39. Of Mice & Men – Bones Exposed 39. マウス・アンド・メン - 骨が露出 0.80
40. Of Mice & Men – Obsolete 40. マウス・アンド・メン - 強迫観念 0.75
41. Opeth – Blackwater Park 41. オプロス - ブラックウォーターパーク 0.76
42. Parkway Drive – Carrion 42. パークウェイドライブ - カーリオン 0.67
43. Rings of Saturn – Senseless Massacre 43. 土星の環 - 無意味な虐殺 0.66
44. Slayer – War Ensemble 44 スレイヤー - アンサンブル。 0.53
45. Slayer – South Of Heaven 45. スレイヤー - 天の南。 0.69
46. Slipknot – Psychosocial 46.スリップノット-心理学 0.57
47. Suffocation – Clarity Through Deprivation 第47条 窒息 - 剥奪による明快さ 0.56
48. Suicide Silence – No Pity for a Coward 48. 自殺の沈黙 - 卑劣者への哀れみはない 0.68
49. Suicide Silence – Disengage 49. 自殺の沈黙 - 退去 0.73
50. Suicide Silence – You Only Live Once 50. 自殺の沈黙 - 1回だけ生きる 0.69
51. Suicide Silence – Slaves To Substance 51.自殺の沈黙 - 物質への奴隷 0.72
52. Tesseract – Nocturne 52. Tesseract – Nocturne 0.42
53. Textures – Storm Warning 53. テクスチャ - ストーム警告。 0.82
                 ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。