論文の概要: Multi-Accent Mandarin Dry-Vocal Singing Dataset: Benchmark for Singing Accent Recognition
- arxiv url: http://arxiv.org/abs/2512.07005v1
- Date: Sun, 07 Dec 2025 21:14:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.633546
- Title: Multi-Accent Mandarin Dry-Vocal Singing Dataset: Benchmark for Singing Accent Recognition
- Title(参考訳): マルチアクセントマンダリンドライバル歌唱データセット:アクセント認識のためのベンチマーク
- Authors: Zihao Wang, Ruibin Yuan, Ziqi Geng, Hengjia Li, Xingwei Qu, Xinyi Li, Songye Chen, Haoying Fu, Roger B. Dannenberg, Kejun Zhang,
- Abstract要約: MADVSDは中国語圏の4,206人のネイティブ・マンダリン話者による670時間以上のドライ・ボーカル・レコーディングで構成されている。
我々は,歌声アクセント認識のベンチマーク実験によりMADVSDを検証する。
アクセントに対する方言の影響について検討し,アクセント変化における母音の役割を分析した。
- 参考スコア(独自算出の注目度): 28.382926227472026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Singing accent research is underexplored compared to speech accent studies, primarily due to the scarcity of suitable datasets. Existing singing datasets often suffer from detail loss, frequently resulting from the vocal-instrumental separation process. Additionally, they often lack regional accent annotations. To address this, we introduce the Multi-Accent Mandarin Dry-Vocal Singing Dataset (MADVSD). MADVSD comprises over 670 hours of dry vocal recordings from 4,206 native Mandarin speakers across nine distinct Chinese regions. In addition to each participant recording audio of three popular songs in their native accent, they also recorded phonetic exercises covering all Mandarin vowels and a full octave range. We validated MADVSD through benchmark experiments in singing accent recognition, demonstrating its utility for evaluating state-of-the-art speech models in singing contexts. Furthermore, we explored dialectal influences on singing accent and analyzed the role of vowels in accentual variations, leveraging MADVSD's unique phonetic exercises.
- Abstract(参考訳): 歌唱アクセント研究は、主に適切なデータセットの不足のために、音声アクセント研究と比較して過小評価されている。
既存の歌唱データセットは、しばしば詳細な損失に悩まされる。
さらに、地域的なアクセントアノテーションが欠如していることが多い。
そこで我々は,マルチアクセント・マンダリン・ドライボーカル・シンキング・データセット(MADVSD)を紹介した。
MADVSDは中国語圏の4,206人のネイティブ・マンダリン話者による670時間以上のドライ・ボーカル・レコーディングで構成されている。
それぞれの参加者は3つのポピュラーな曲を母語アクセントで録音するだけでなく、すべてのマンダリン母音とフルオクターブの範囲をカバーする音韻練習も録音した。
我々は,歌声アクセント認識のベンチマーク実験を通じてMADVSDを検証し,歌声文脈における最先端音声モデルの評価に有用であることを実証した。
さらに, アクセントに対する方言の影響について検討し, アクセント変化における母音の役割をMADVSD特有の音韻運動を利用して分析した。
関連論文リスト
- GTSinger: A Global Multi-Technique Singing Corpus with Realistic Music Scores for All Singing Tasks [52.30565320125514]
GTSingerは、グローバルで、多技術で、無料で使える、高品質な歌唱コーパスで、リアルな音楽スコアがある。
高品質な歌声を80.59時間収集し、最大の歌唱データセットを形成する。
我々は,技術制御可能な歌唱音声合成,技術認識,スタイル伝達,音声歌唱変換の4つのベンチマーク実験を行った。
論文 参考訳(メタデータ) (2024-09-20T18:18:14Z) - Singer Identity Representation Learning using Self-Supervised Techniques [0.0]
歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。
我々は,孤立した音声トラックの集合体上で,異なる自己教師付き学習手法を探索する。
歌手の類似度と識別タスクにおける表現の質を評価する。
論文 参考訳(メタデータ) (2024-01-10T10:41:38Z) - A study on native American English speech recognition by Indian
listeners with varying word familiarity level [62.14295630922855]
発声を認識している間、各聴取者から3種類の応答が得られます。
これらの転写から単語誤り率(WER)を算出し、認識された文と原文との類似性を評価する指標として用いる。
話者のナティビティの賢明な分析は、一部のナティビティの話者からの発声が、他のいくつかのナティビティに比べてインド人のリスナーによって認識されるのが困難であることを示している。
論文 参考訳(メタデータ) (2021-12-08T07:43:38Z) - Synchronising speech segments with musical beats in Mandarin and English
singing [4.627414193046309]
音楽的ビートの存在は、ソノリティよりもセグメント持続時間に依存していた。
マンダリンと英語は共通のパターンを示すにもかかわらず言語間の差異を示した。
論文 参考訳(メタデータ) (2021-06-18T10:32:27Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - The Use of Voice Source Features for Sung Speech Recognition [24.129307615741695]
まず,歌声特徴と音声特徴の違いを説明するために,並列音声コーパスを用いた。
次に,この分析を用いて,歌唱音声dsingコーパスの音声認識実験を行う。
実験は、DSing1(15.1時間)、DSing3(44.7時間)、DSing30(149.1時間)の3つの標準訓練セットで実施される。
論文 参考訳(メタデータ) (2021-02-20T15:54:26Z) - JukeBox: A Multilingual Singer Recognition Dataset [17.33151600403503]
textitJukeBoxは、歌手のアイデンティティ、性別、言語ラベルを付加した多言語歌声音声付き話者認識データセットである。
音声のみを訓練したモデルを用いて歌唱音声における話者認識の難しさを示すために,現在最先端の手法を用いている。
論文 参考訳(メタデータ) (2020-08-08T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。