論文の概要: A Dataset for Automatic Vocal Mode Classification
- arxiv url: http://arxiv.org/abs/2601.18339v1
- Date: Mon, 26 Jan 2026 10:28:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.774966
- Title: A Dataset for Automatic Vocal Mode Classification
- Title(参考訳): 自動音声モード分類のためのデータセット
- Authors: Reemt Hinrichs, Sonja Stephan, Alexander Lange, Jörn Ostermann,
- Abstract要約: このデータセットは、4人の歌手から録音された持続母音で構成されている。
データセットは、被験者の声域全体をカバーするもので、合計で3,752個のサンプルがある。
5倍のクロスバリデーション(81.3,%)で最高のバランスの取れた精度はResNet18で達成された。
- 参考スコア(独自算出の注目度): 42.686436559795744
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Complete Vocal Technique (CVT) is a school of singing developed in the past decades by Cathrin Sadolin et al.. CVT groups the use of the voice into so called vocal modes, namely Neutral, Curbing, Overdrive and Edge. Knowledge of the desired vocal mode can be helpful for singing students. Automatic classification of vocal modes can thus be important for technology-assisted singing teaching. Previously, automatic classification of vocal modes has been attempted without major success, potentially due to a lack of data. Therefore, we recorded a novel vocal mode dataset consisting of sustained vowels recorded from four singers, three of which professional singers with more than five years of CVT-experience. The dataset covers the entire vocal range of the subjects, totaling 3,752 unique samples. By using four microphones, thereby offering a natural data augmentation, the dataset consists of more than 13,000 samples combined. An annotation was created using three CVT-experienced annotators, each providing an individual annotation. The merged annotation as well as the three individual annotations come with the published dataset. Additionally, we provide some baseline classification results. The best balanced accuracy across a 5-fold cross validation of 81.3\,\% was achieved with a ResNet18. The dataset can be downloaded under https://zenodo.org/records/14276415.
- Abstract(参考訳): The Complete Vocal Technique (CVT) は、キャスリン・サドリンらによって過去数十年の間に開発された歌唱の流派である。
CVTは、音声をNeutral、Curbing、Overdrive、Edgeと呼ばれる声楽モードにグループ化する。
所望のボーカルモードの知識は、学生の歌唱に役立てることができる。
したがって, 音声モードの自動分類は, 技術支援による歌唱指導において重要である。
これまで、音声モードの自動分類は大きな成功を収めることなく試みられてきたが、これはおそらくデータ不足のためである。
そこで本研究では,5年以上のCVT経験を持つプロの歌手4名を対象に,持続母音からなる新しい発声モードデータセットを収録した。
データセットは、被験者の声域全体をカバーするもので、それぞれ3,752種類のサンプルがある。
4つのマイクを使用して、自然なデータ拡張を提供することで、データセットは13,000以上のサンプルで構成されている。
3つのCVT経験のあるアノテーションを使用してアノテーションを作成し、それぞれが個別のアノテーションを提供する。
マージされたアノテーションと3つの個別アノテーションは、公開されたデータセットと共に提供される。
さらに、いくつかのベースライン分類結果を提供する。
81.3\,\%の5倍のクロスバリデーションで最高のバランスの取れた精度はResNet18で達成された。
データセットはhttps://zenodo.org/records/14276415でダウンロードできる。
関連論文リスト
- GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks [52.30565320125514]
GTSingerは、グローバルで、多技術で、無料で使える、高品質な歌唱コーパスで、リアルな音楽スコアがある。
高品質な歌声を80.59時間収集し、最大の歌唱データセットを形成する。
我々は,技術制御可能な歌唱音声合成,技術認識,スタイル伝達,音声歌唱変換の4つのベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-09-20T18:18:14Z) - Vocalsound: A Dataset for Improving Human Vocal Sounds Recognition [13.373579620368046]
VocalSoundのデータセットは、21,000件以上のクラウドソースによる笑い声、うさぎ声、うなり声、喉のクリアリング、くしゃみ、嗅ぎ声の録音で構成されています。
実験の結果,既存のデータセットにVocalSoundデータセットを追加することで,モデルの音声認識性能を41.9%向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-05-06T18:08:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。