論文の概要: WenetSpeech-Chuan: A Large-Scale Sichuanese Corpus with Rich Annotation for Dialectal Speech Processing
- arxiv url: http://arxiv.org/abs/2509.18004v1
- Date: Mon, 22 Sep 2025 16:44:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.512094
- Title: WenetSpeech-Chuan: A Large-Scale Sichuanese Corpus with Rich Annotation for Dialectal Speech Processing
- Title(参考訳): WenetSpeech-Chuan: 方言音声処理のためのリッチアノテーション付き大規模四川語コーパス
- Authors: Yuhang Dai, Ziyu Zhang, Shuai Wang, Longhao Li, Zhao Guo, Tianlun Zuo, Shuiyuan Wang, Hongfei Xue, Chengyou Wang, Qing Wang, Xin Xu, Hui Bu, Jie Li, Jian Kang, Binbin Zhang, Lei Xie,
- Abstract要約: WenetSpeech-Chuanは、私たちの小説『Chuan-Pipeline』で作られた1万時間の注釈付きコーパスです。
また、手作業による手作業による書き起こしによる高品質なASRとTSベンチマークであるWenetSpeech-Chuan-Evalもリリースしています。
実験によると、WnetSpeech-Chuanでトレーニングされたモデルは、オープンソースシステム間で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 26.82255620167095
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The scarcity of large-scale, open-source data for dialects severely hinders progress in speech technology, a challenge particularly acute for the widely spoken Sichuanese dialects of Chinese. To address this critical gap, we introduce WenetSpeech-Chuan, a 10,000-hour, richly annotated corpus constructed using our novel Chuan-Pipeline, a complete data processing framework for dialectal speech. To facilitate rigorous evaluation and demonstrate the corpus's effectiveness, we also release high-quality ASR and TTS benchmarks, WenetSpeech-Chuan-Eval, with manually verified transcriptions. Experiments show that models trained on WenetSpeech-Chuan achieve state-of-the-art performance among open-source systems and demonstrate results comparable to commercial services. As the largest open-source corpus for Sichuanese dialects, WenetSpeech-Chuan not only lowers the barrier to research in dialectal speech processing but also plays a crucial role in promoting AI equity and mitigating bias in speech technologies. The corpus, benchmarks, models, and receipts are publicly available on our project page.
- Abstract(参考訳): 方言の大規模なオープンソースデータの不足は、音声技術の進歩を著しく妨げている。
この重要なギャップに対処するために、我々は、方言音声のための完全なデータ処理フレームワークであるChuan-Pipelineを用いて構築された1万時間のリッチな注釈付きコーパスであるWenetSpeech-Chuanを紹介した。
厳密な評価の容易化とコーパスの有効性の実証を目的として,手作業による手書きによる高品質な ASR と TTS ベンチマーク WenetSpeech-Chuan-Eval をリリースする。
実験によると、WnetSpeech-Chuanでトレーニングされたモデルは、オープンソースシステム間で最先端のパフォーマンスを実現し、商用サービスに匹敵する結果を実証している。
四川方言の最大のオープンソースコーパスであるWenetSpeech-Chuanは、方言音声処理の研究の障壁を低くするだけでなく、AIのエクイティを促進し、音声技術のバイアスを軽減する上でも重要な役割を果たしている。
コーパス、ベンチマーク、モデル、レシートは、私たちのプロジェクトページで公開されています。
関連論文リスト
- TESU-LLM: Training Speech-LLMs Without Speech via Unified Encoder Alignment [15.899112804399193]
textbfTESU-LLMは,テキストデータのみを用いた音声対応言語モデルの学習を可能にする新しいフレームワークである。
我々の重要な洞察は、意味論的に等価なテキストと音声入力を共有潜在空間にマッピングする統一エンコーダを活用することである。
TESU-LLMはテキストのみに訓練されているにもかかわらず、様々な音声関連ベンチマークで高い性能を達成している。
論文 参考訳(メタデータ) (2025-06-01T09:27:55Z) - OZSpeech: One-step Zero-shot Speech Synthesis with Learned-Prior-Conditioned Flow Matching [3.05024318465243]
OZSpeechは1ステップのサンプリングで最適な輸送条件流を探索する最初のTS法である。
提案手法は,各音声属性の正確なモデリングを可能にするために,トークン形式における音声の非交叉分解成分を演算する。
実験の結果,提案手法は,コンテンツ精度,自然性,韻律生成,話者スタイルの保存において,既存の手法よりも有望な性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-05-19T07:31:55Z) - VoxHakka: A Dialectally Diverse Multi-speaker Text-to-Speech System for Taiwanese Hakka [10.784402571965867]
VoxHakka(ヴォックスハッカ、VoxHakka)は、台湾の言語であるHakka向けに設計された音声合成システムである。
VoxHakkaは音声合成における自然性と精度,低リアルタイム化を実現している。
論文 参考訳(メタデータ) (2024-09-03T02:37:34Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。
本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
提案手法の有効性をベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-06-01T18:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。