論文の概要: EMVD dataset: a dataset of extreme vocal distortion techniques used in heavy metal
- arxiv url: http://arxiv.org/abs/2406.17732v1
- Date: Mon, 24 Jun 2024 07:50:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 13:31:24.718598
- Title: EMVD dataset: a dataset of extreme vocal distortion techniques used in heavy metal
- Title(参考訳): EMVDデータセット:重金属で用いられる極端声帯歪みのデータセット
- Authors: Modan Tailleur, Julien Pinquier, Laurent Millot, Corsin Vogel, Mathieu Lagrange,
- Abstract要約: データセットは、長さ1秒から30秒の760のオーディオ抜粋で構成され、約100分間のオーディオ素材で構成されている。
このデータセット内の歪み分類は、4つの異なる歪み技法と3つの声効果を含む。
声道技術に関連する2つの分類課題に対して,最先端のディープラーニングモデルの性能を評価した。
- 参考スコア(独自算出の注目度): 3.462957144298955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce the Extreme Metal Vocals Dataset, which comprises a collection of recordings of extreme vocal techniques performed within the realm of heavy metal music. The dataset consists of 760 audio excerpts of 1 second to 30 seconds long, totaling about 100 min of audio material, roughly composed of 60 minutes of distorted voices and 40 minutes of clear voice recordings. These vocal recordings are from 27 different singers and are provided without accompanying musical instruments or post-processing effects. The distortion taxonomy within this dataset encompasses four distinct distortion techniques and three vocal effects, all performed in different pitch ranges. Performance of a state-of-the-art deep learning model is evaluated for two different classification tasks related to vocal techniques, demonstrating the potential of this resource for the audio processing community.
- Abstract(参考訳): 本稿では,ヘビーメタル音楽の領域内で演奏される極端なボーカル技法の記録を収録したExtreme Metal Vocals Datasetを紹介する。
データセットは、長さ1秒から30秒の760のオーディオ抜粋で構成され、約100分間のオーディオ素材で構成され、ほぼ60分間の歪みのある音声と40分間のクリアな音声記録で構成されている。
これらのボーカル録音は27の異なる歌手からできており、楽器や後処理の影響を伴わずに提供される。
このデータセット内の歪み分類は、4つの異なる歪み技法と3つの発声効果を含み、それぞれ異なるピッチ範囲で実行される。
声楽技術に関連する2つの異なる分類タスクに対して,最先端のディープラーニングモデルの性能を評価し,このリソースが音声処理コミュニティにもたらす可能性を示す。
関連論文リスト
- Transfer Learning in Vocal Education: Technical Evaluation of Limited Samples Describing Mezzo-soprano [13.796982484176207]
本稿では,深層学習モデルを用いたメゾソプラノ音声技術の評価手法を提案する。
我々は、ImageNetとUrbansound8kデータセットで事前トレーニングされたディープラーニングモデルを採用する。
実験の結果,移動学習は全モデルの総合的精度(OAcc)を平均8.3%向上させることがわかった。
論文 参考訳(メタデータ) (2024-10-30T13:17:13Z) - GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks [52.30565320125514]
GTSingerは、グローバルで、多技術で、無料で使える、高品質な歌唱コーパスで、リアルな音楽スコアがある。
高品質な歌声を80.59時間収集し、最大の歌唱データセットを形成する。
我々は,技術制御可能な歌唱音声合成,技術認識,スタイル伝達,音声歌唱変換の4つのベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-09-20T18:18:14Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Make-A-Voice: Unified Voice Synthesis With Discrete Representation [77.3998611565557]
Make-A-Voiceは、個別表現から音声信号を合成・操作するための統合されたフレームワークである。
我々は,Make-A-Voiceは,競合するベースラインモデルと比較して,音質とスタイルの類似性が優れていることを示す。
論文 参考訳(メタデータ) (2023-05-30T17:59:26Z) - Detection and classification of vocal productions in large scale audio
recordings [0.12930503923129208]
大規模自然音声録音から発声音声を抽出する自動データ処理パイプラインを提案する。
パイプラインはディープニューラルネットワークに基づいており、両方の問題に同時に対処する。
1つは霊長類研究センターで記録されたギニアバブーンのグループで、もう1つは自宅で記録されたヒトの赤ちゃんです。
論文 参考訳(メタデータ) (2023-02-14T14:07:09Z) - A Dataset for Greek Traditional and Folk Music: Lyra [69.07390994897443]
本稿では,80時間程度で要約された1570曲を含むギリシャの伝統音楽と民俗音楽のデータセットについて述べる。
このデータセットにはYouTubeのタイムスタンプ付きリンクが組み込まれており、オーディオやビデオの検索や、インスツルメンテーション、地理、ジャンルに関する豊富なメタデータ情報が含まれている。
論文 参考訳(メタデータ) (2022-11-21T14:15:43Z) - Scream Detection in Heavy Metal Music [79.68916470119743]
悲鳴やグロールのようなハーシュのボーカル効果は、伝統的に歌われたボーカルよりもヘビーメタルのボーカルの方が一般的である。
本稿では,重金属音楽における極端発声手法の検出と分類の問題点について考察する。
論文 参考訳(メタデータ) (2022-05-11T15:48:56Z) - Vocalsound: A Dataset for Improving Human Vocal Sounds Recognition [13.373579620368046]
VocalSoundのデータセットは、21,000件以上のクラウドソースによる笑い声、うさぎ声、うなり声、喉のクリアリング、くしゃみ、嗅ぎ声の録音で構成されています。
実験の結果,既存のデータセットにVocalSoundデータセットを追加することで,モデルの音声認識性能を41.9%向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-05-06T18:08:18Z) - Audiovisual Singing Voice Separation [25.862550744570324]
ビデオモデルは口の動きを入力し、それをオーディオベースの分離フレームワークの機能埋め込みに融合する。
トレーニングと評価のための2つのオーディオヴィジュアルな歌唱パフォーマンスデータセットを作成します。
提案手法は、ほとんどのテスト記録における分離品質の観点から、音声ベースの手法よりも優れる。
論文 参考訳(メタデータ) (2021-07-01T06:04:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。