論文の概要: PrimaDNN': A Characteristics-aware DNN Customization for Singing
Technique Detection
- arxiv url: http://arxiv.org/abs/2306.14191v1
- Date: Sun, 25 Jun 2023 10:15:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 16:25:42.589026
- Title: PrimaDNN': A Characteristics-aware DNN Customization for Singing
Technique Detection
- Title(参考訳): PrimaDNN':歌声検出のための特徴認識DNNカスタマイズ
- Authors: Yuya Yamamoto, Juhan Nam, Hiroko Terasawa
- Abstract要約: そこで本稿では,特徴指向の改良を目的としたディープニューラルネットワークモデルであるPimaDNNを提案する。
J-POPの歌唱技術検出の結果、PrimaDNNはマクロFで44.9%の最高の結果を得た。
- 参考スコア(独自算出の注目度): 5.399268560100004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Professional vocalists modulate their voice timbre or pitch to make their
vocal performance more expressive. Such fluctuations are called singing
techniques. Automatic detection of singing techniques from audio tracks can be
beneficial to understand how each singer expresses the performance, yet it can
also be difficult due to the wide variety of the singing techniques. A deep
neural network (DNN) model can handle such variety; however, there might be a
possibility that considering the characteristics of the data improves the
performance of singing technique detection. In this paper, we propose PrimaDNN,
a CRNN model with a characteristics-oriented improvement. The features of the
model are: 1) input feature representation based on auxiliary pitch information
and multi-resolution mel spectrograms, 2) Convolution module based on the
Squeeze-and-excitation (SENet) and the Instance normalization. In the results
of J-POP singing technique detection, PrimaDNN achieved the best results of
44.9% at the overall macro-F measure, compared to conventional works. We also
found that the contribution of each component varies depending on the type of
singing technique.
- Abstract(参考訳): プロのボーカリストは、声の音色やピッチを調整して、声の演奏をより表現力のあるものにする。
このようなゆらぎを歌唱技法と呼ぶ。
音声トラックからの歌唱技術の自動検出は,各歌手の演奏の仕方を理解する上で有用であるが,多種多様な歌唱技術によっても困難である。
ディープニューラルネットワーク(DNN)モデルでは,このような多様性を扱えるが,データの特徴を考慮すると,歌唱技術検出の性能が向上する可能性がある。
本稿では,特徴指向の改良型CRNNモデルであるPrimaDNNを提案する。
モデルの特徴は次のとおりである。
1)補助ピッチ情報と多分解能メルスペクトログラムに基づく入力特徴表現
2) Squeeze-and-Excitation(SENet)とインスタンス正規化に基づく畳み込みモジュール。
J-POP の歌唱技術検出の結果,プリマDNN はマクロF 測定で44.9% の最高の結果を得た。
また,各コンポーネントのコントリビューションは,歌唱法の種類によって異なることがわかった。
関連論文リスト
- Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - MBTFNet: Multi-Band Temporal-Frequency Neural Network For Singing Voice
Enhancement [8.782080886602145]
歌声強調のための新しい時間周波数ニューラルネットワーク(MBTFNet)を提案する。
MBTFNetは、バックグラウンド音楽、ノイズ、さらにはボーカルを歌唱録音から削除する。
実験により,提案モデルがいくつかの最先端SEモデルとMSSモデルより有意に優れていることが示された。
論文 参考訳(メタデータ) (2023-10-06T16:44:47Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - Learning the Beauty in Songs: Neural Singing Voice Beautifier [69.21263011242907]
我々は、新しいタスク、歌声美化(SVB)に興味を持っている。
アマチュア歌手の歌声を考えると、SVBは内容と声の音色を保ちながら、声のイントネーションと声のトーンを改善することを目的としている。
SVBタスクを解く最初の生成モデルであるNSVB(Neural Singing Voice Beautifier)を導入する。
論文 参考訳(メタデータ) (2022-02-27T03:10:12Z) - TONet: Tone-Octave Network for Singing Melody Extraction from Polyphonic
Music [43.17623332544677]
TONetは、トーンとオクターブの両方の知覚を改善するプラグアンドプレイモデルである。
本稿では,高調波を明示的にグループ化する改良された入力表現Tone-CFPを提案する。
第3に,最終的なサリエンス特徴写像を改善するために,トーンオクターブ融合機構を提案する。
論文 参考訳(メタデータ) (2022-02-02T10:55:48Z) - Sinsy: A Deep Neural Network-Based Singing Voice Synthesis System [25.573552964889963]
本稿では,ディープニューラルネットワーク(DNN)に基づく歌唱音声合成(SVS)システムであるSinsyについて述べる。
提案システムは,時間ラグモデル,持続時間モデル,音響モデル,ボコーダの4つのモジュールから構成される。
実験結果から,より適切なタイミング,より自然なビブラート,正しいピッチで歌唱音声を合成できることが確認された。
論文 参考訳(メタデータ) (2021-08-05T17:59:58Z) - DiffSVC: A Diffusion Probabilistic Model for Singing Voice Conversion [51.83469048737548]
本稿では拡散確率モデルに基づくSVCシステムであるDiffSVCを提案する。
DiffSVCでは、破壊されたメルスペクトログラムとその対応するステップ情報を入力として、付加されたガウスノイズを予測するデノナイジングモジュールを訓練する。
実験により、DiffSVCは、現在の最先端SVCアプローチと自然性および音声類似性の観点から、優れた変換性能が得られることが示された。
論文 参考訳(メタデータ) (2021-05-28T14:26:40Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。