論文の概要: MNV-17: A High-Quality Performative Mandarin Dataset for Nonverbal Vocalization Recognition in Speech
- arxiv url: http://arxiv.org/abs/2509.18196v1
- Date: Fri, 19 Sep 2025 20:40:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.480845
- Title: MNV-17: A High-Quality Performative Mandarin Dataset for Nonverbal Vocalization Recognition in Speech
- Title(参考訳): MNV-17:非言語ボカライゼーション音声認識のための高品質な変形マンダリンデータセット(MNV-17)
- Authors: Jialong Mai, Jinxin Ji, Xiaofen Xing, Chen Yang, Weidong Chen, Jingyuan Xing, Xiangmin Xu,
- Abstract要約: 我々は、7.55時間のマンダリン音声データセットであるMNV-17を紹介する。
モデルベース検出に依存する既存のコーパスとは異なり、MNV-17の性能特性は高忠実で明瞭なNVインスタンスを保証する。
4つの主要なASRアーキテクチャでMNV-17をベンチマークし、意味転写とNV分類の併用性能を評価した。
- 参考スコア(独自算出の注目度): 31.398302310523444
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mainstream Automatic Speech Recognition (ASR) systems excel at transcribing lexical content, but largely fail to recognize nonverbal vocalizations (NVs) embedded in speech, such as sighs, laughs, and coughs. This capability is important for a comprehensive understanding of human communication, as NVs convey crucial emotional and intentional cues. Progress in NV-aware ASR has been hindered by the lack of high-quality, well-annotated datasets. To address this gap, we introduce MNV-17, a 7.55-hour performative Mandarin speech dataset. Unlike most existing corpora that rely on model-based detection, MNV-17's performative nature ensures high-fidelity, clearly articulated NV instances. To the best of our knowledge, MNV-17 provides the most extensive set of nonverbal vocalization categories, comprising 17 distinct and well-balanced classes of common NVs. We benchmarked MNV-17 on four mainstream ASR architectures, evaluating their joint performance on semantic transcription and NV classification. The dataset and the pretrained model checkpoints will be made publicly available to facilitate future research in expressive ASR.
- Abstract(参考訳): 主流自動音声認識(英: Mainstream Automatic Speech Recognition, ASR)は、語彙内容の書き起こしに優れるが、大半が音声に埋め込まれた非言語発声(NV)(sighs, laughs, coughs)を認識できない。
この能力は、NVが重要な感情的・意図的な手がかりを伝達するので、人間のコミュニケーションを包括的に理解する上で重要である。
NV対応ASRの進歩は、高品質で注釈付きデータセットの欠如によって妨げられている。
このギャップに対処するため、7.55時間のマンダリン音声データセットであるMNV-17を導入する。
モデルベース検出に依存する既存のコーパスとは異なり、MNV-17の性能特性は高忠実で明瞭なNVインスタンスを保証する。
我々の知る限り、MNV-17は、一般的なNVの17の区別されたバランスの取れたクラスを含む、最も広範な非言語発声カテゴリーを提供する。
4つの主要なASRアーキテクチャでMNV-17をベンチマークし、意味転写とNV分類の併用性能を評価した。
データセットと事前訓練されたモデルチェックポイントは、表現力のあるASRにおける将来の研究を促進するために公開されます。
関連論文リスト
- NonverbalTTS: A Public English Corpus of Text-Aligned Nonverbal Vocalizations with Emotion Annotations for Text-to-Speech [0.0]
非バーバルTTS(NonverbalTTS、NVTTS)は、10種類のNV(笑い、うず)と8つの感情カテゴリーで注釈付けされた17時間のオープンアクセスデータセットである。
自動音声認識(ASR)、NVタグ付け、感情分類、融合アルゴリズムを統合し、複数のアノテータからの書き起こしをマージする包括的パイプラインを提案する。
論文 参考訳(メタデータ) (2025-07-17T14:17:40Z) - Supporting SENCOTEN Language Documentation Efforts with Automatic Speech Recognition [4.702636570667311]
バンクーバー島南部のサアニチ半島で話されているセノチェン語は、活発な言語再生の努力の最中である。
そこで本研究では,音声合成システムからの音声データを利用したASR駆動型文書パイプラインを提案する。
n-gram言語モデルは、利用可能なデータの使用を最大化するために、浅い融合やn-best復元によっても組み込まれている。
論文 参考訳(メタデータ) (2025-07-14T21:44:35Z) - Sagalee: an Open Source Automatic Speech Recognition Dataset for Oromo Language [8.615751906839208]
我々はエチオピアおよび近隣地域で広く話されている言語であるオロモ語のための新しいデータセットを提示する。
データセットはクラウドソーシングイニシアチブを通じて収集され、多様な話者と音声のバリエーションを含んでいる。
実際の音声録音を100時間、書き起こしと組み合わせて行い、クリーンでノイズの多い環境での読み上げ音声をカバーしている。
論文 参考訳(メタデータ) (2025-02-01T12:47:36Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - AS-70: A Mandarin stuttered speech dataset for automatic speech recognition and stuttering event detection [46.855958156126164]
AS-70は、マンダリンで公開されている最初の音声データセットである。
本稿では,マンダリン発声音声データセットAS-70について紹介する。
論文 参考訳(メタデータ) (2024-06-11T13:35:50Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。