論文の概要: Transfer Learning in Vocal Education: Technical Evaluation of Limited Samples Describing Mezzo-soprano
- arxiv url: http://arxiv.org/abs/2410.23325v1
- Date: Wed, 30 Oct 2024 13:17:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:59:59.787350
- Title: Transfer Learning in Vocal Education: Technical Evaluation of Limited Samples Describing Mezzo-soprano
- Title(参考訳): 声道教育におけるトランスファーラーニング:メゾソプラノを記述した限られたサンプルの技術的評価
- Authors: Zhenyi Hou, Xu Zhao, Kejie Ye, Xinyu Sheng, Shanggerile Jiang, Jiajing Xia, Yitao Zhang, Chenxi Ban, Daijun Luo, Jiaxing Chen, Yan Zou, Yuchao Feng, Guangyu Fan, Xin Yuan,
- Abstract要約: 本稿では,深層学習モデルを用いたメゾソプラノ音声技術の評価手法を提案する。
我々は、ImageNetとUrbansound8kデータセットで事前トレーニングされたディープラーニングモデルを採用する。
実験の結果,移動学習は全モデルの総合的精度(OAcc)を平均8.3%向上させることがわかった。
- 参考スコア(独自算出の注目度): 13.796982484176207
- License:
- Abstract: Vocal education in the music field is difficult to quantify due to the individual differences in singers' voices and the different quantitative criteria of singing techniques. Deep learning has great potential to be applied in music education due to its efficiency to handle complex data and perform quantitative analysis. However, accurate evaluations with limited samples over rare vocal types, such as Mezzo-soprano, requires extensive well-annotated data support using deep learning models. In order to attain the objective, we perform transfer learning by employing deep learning models pre-trained on the ImageNet and Urbansound8k datasets for the improvement on the precision of vocal technique evaluation. Furthermore, we tackle the problem of the lack of samples by constructing a dedicated dataset, the Mezzo-soprano Vocal Set (MVS), for vocal technique assessment. Our experimental results indicate that transfer learning increases the overall accuracy (OAcc) of all models by an average of 8.3%, with the highest accuracy at 94.2%. We not only provide a novel approach to evaluating Mezzo-soprano vocal techniques but also introduce a new quantitative assessment method for music education.
- Abstract(参考訳): 音楽分野における声道教育は、歌手の声の個人差と、歌唱技法の量的基準の違いにより、定量化が難しい。
深層学習は、複雑なデータを扱う効率と定量的分析を行うため、音楽教育に適用される可能性がある。
しかし、メゾソプラノのような希少な声のタイプに対する限られたサンプルによる正確な評価には、ディープラーニングモデルを用いた広範囲な注釈付きデータサポートが必要である。
目的を達成するために,ImageNetとUrbansound8kデータセットに事前学習したディープラーニングモデルを用いて,声質評価の精度向上を図る。
さらに,音声技術評価のための専用のデータセットであるMezzo-soprano Vocal Set (MVS)を構築することで,サンプル不足の問題に取り組む。
実験結果から,移動学習は平均8.3%,最高94.2%の精度で全モデルの総合的精度(OAcc)を向上させることが示された。
メゾソプラノのボーカル技術を評価するための新しい手法を提供するだけでなく,音楽教育のための新しい定量的評価手法も導入する。
関連論文リスト
- Towards Explainable and Interpretable Musical Difficulty Estimation: A Parameter-efficient Approach [49.2787113554916]
音楽コレクションの整理には曲の難易度を推定することが重要である。
シンボリックな音楽表現の難易度推定には説明可能な記述子を用いる。
ピアノレパートリーで評価したアプローチは,平均2乗誤差(MSE)が1.7。
論文 参考訳(メタデータ) (2024-08-01T11:23:42Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Singer Identity Representation Learning using Self-Supervised Techniques [0.0]
歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。
我々は,孤立した音声トラックの集合体上で,異なる自己教師付き学習手法を探索する。
歌手の類似度と識別タスクにおける表現の質を評価する。
論文 参考訳(メタデータ) (2024-01-10T10:41:38Z) - Investigating Personalization Methods in Text to Music Generation [21.71190700761388]
コンピュータビジョン領域の最近の進歩に触発されて、事前学習されたテキスト・オーディオ・ディフューザと2つの確立されたパーソナライズ手法の組み合わせを初めて検討した。
評価のために,プロンプトと音楽クリップを用いた新しいデータセットを構築した。
分析の結果、類似度指標はユーザの好みに応じており、現在のパーソナライズアプローチでは、メロディよりもリズム音楽の構成を学習しやすい傾向にあることがわかった。
論文 参考訳(メタデータ) (2023-09-20T08:36:34Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Toward Leveraging Pre-Trained Self-Supervised Frontends for Automatic
Singing Voice Understanding Tasks: Three Case Studies [1.2691047660244337]
自己教師付き学習モデル(SSLモデル)は、音声処理と音楽分類の分野で大量のラベルのないデータを用いて訓練されてきた。
本研究は,3つのタスク(歌手識別,歌唱音声書き起こし,歌唱技法分類)におけるSSLモデルの比較実験を初期探索として報告し,これらの知見を議論することを目的とした。
論文 参考訳(メタデータ) (2023-06-22T07:47:18Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models [95.97506031821217]
本研究では,事前学習した拡散音声モデルを用いて,学習中に見つからない新人の声で音声を生成する手法を提案する。
この方法は、対象者からの短い(3秒)サンプルを必要とし、生成は、トレーニングステップなしで、推論時に操縦される。
論文 参考訳(メタデータ) (2022-06-05T19:45:29Z) - Deep Learning Approach for Singer Voice Classification of Vietnamese
Popular Music [1.2043574473965315]
ベトナムのポピュラー音楽の分析に基づいて,歌手の名前を識別する新しい手法を提案する。
音声セグメント検出と歌声分離を前処理ステップとして利用しています。
本手法の正確性を検証するために,ベトナムの有名な歌手18人の歌曲300曲のデータセットを評価した。
論文 参考訳(メタデータ) (2021-02-24T08:03:07Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。