論文の概要: Open Source MagicData-RAMC: A Rich Annotated Mandarin
Conversational(RAMC) Speech Dataset
- arxiv url: http://arxiv.org/abs/2203.16844v1
- Date: Thu, 31 Mar 2022 07:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 15:41:43.929150
- Title: Open Source MagicData-RAMC: A Rich Annotated Mandarin
Conversational(RAMC) Speech Dataset
- Title(参考訳): オープンソースのMagicData-RAMC: リッチアノテートマンダリン会話(RAMC)音声データセット
- Authors: Zehui Yang, Yifan Chen, Lei Luo, Runyan Yang, Lingxuan Ye, Gaofeng
Cheng, Ji Xu, Yaohui Jin, Qingqing Zhang, Pengyuan Zhang, Lei Xie, Yonghong
Yan
- Abstract要約: 本稿では,MagicData-RAMCと呼ばれる高品質なリッチ・アノテート・マンダリン音声データセットを提案する。
MagicData-RAMCコーパスには、中国語の母語話者が携帯電話上で16kHzのサンプリングレートで記録した180時間の会話音声データが含まれている。
- 参考スコア(独自算出の注目度): 51.75617364782418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a high-quality rich annotated Mandarin conversational
(RAMC) speech dataset called MagicData-RAMC. The MagicData-RAMC corpus contains
180 hours of conversational speech data recorded from native speakers of
Mandarin Chinese over mobile phones with a sampling rate of 16 kHz. The dialogs
in MagicData-RAMC are classified into 15 diversified domains and tagged with
topic labels, ranging from science and technology to ordinary life. Accurate
transcription and precise speaker voice activity timestamps are manually
labeled for each sample. Speakers' detailed information is also provided. As a
Mandarin speech dataset designed for dialog scenarios with high quality and
rich annotations, MagicData-RAMC enriches the data diversity in the Mandarin
speech community and allows extensive research on a series of speech-related
tasks, including automatic speech recognition, speaker diarization, topic
detection, keyword search, text-to-speech, etc. We also conduct several
relevant tasks and provide experimental results to help evaluate the dataset.
- Abstract(参考訳): 本稿では,magicdata-ramc という,高品質なリッチなアノテートマンダリン会話(ramc)音声データセットを提案する。
MagicData-RAMCコーパスには、中国語の母語話者が携帯電話上で16kHzのサンプリングレートで記録した180時間の会話音声データが含まれている。
MagicData-RAMCのダイアログは15の多様化されたドメインに分類され、科学や技術から普通の生活まで、トピックラベルでタグ付けされる。
サンプル毎に正確な書き起こしと正確な話者音声活動タイムスタンプを手動でラベル付けする。
講演者の詳細な情報も提供される。
高品質でリッチなアノテーションを備えたダイアログシナリオ用に設計されたマンダリン音声データセットとして、MagicData-RAMCは、マンダリン音声コミュニティにおけるデータの多様性を強化し、自動音声認識、話者ダイアリゼーション、トピック検出、キーワード検索、テキスト音声など、一連の音声関連タスクに関する広範な研究を可能にする。
関連するタスクもいくつか実施し、データセットを評価するための実験結果を提供しています。
関連論文リスト
- Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。
本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。
本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2024-07-16T18:03:58Z) - EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。
データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。
提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文 参考訳(メタデータ) (2024-06-10T11:28:29Z) - Advancing Speech Translation: A Corpus of Mandarin-English Conversational Telephone Speech [4.924682400857061]
本稿では,CallHome Mandarin 中国語データとHKUST Mandarin 中国語音声データの123時間サブセットに対する英訳について紹介する。
マンダリン英会話音声訓練セットに汎用翻訳モデルを微調整することで,目標領域BLEUを8点以上改善できることを実証する。
論文 参考訳(メタデータ) (2024-03-25T21:08:06Z) - MD3: The Multi-Dialect Dataset of Dialogues [20.144004030947507]
本稿では,インド,ナイジェリア,米国から英語を表現した会話音声のデータセットを紹介する。
データセットには、20時間以上のオーディオと、20万以上の正書法で書き起こされたトークンが含まれている。
論文 参考訳(メタデータ) (2023-05-19T00:14:10Z) - The Conversational Short-phrase Speaker Diarization (CSSD) Task:
Dataset, Evaluation Metric and Baselines [63.86406909879314]
本稿では,会話短文話者ダイアリゼーション(CSSD)タスクについて述べる。
トレーニングとテストのデータセット、評価基準、ベースラインで構成されている。
距離の面では,発話レベルでのSD精度を算出する新しい対話型DER (CDER) 評価指標を設計する。
論文 参考訳(メタデータ) (2022-08-17T03:26:23Z) - MEG-MASC: a high-quality magneto-encephalography dataset for evaluating
natural speech processing [1.345669927504424]
MEG-MASC"データセットは、27人の英語話者の生磁気脳波(MEG)記録のキュレートされたセットを提供する。
記録のメタデータに各単語と音素のオンセットとオフセットをタイムスタンプし、BIDS(Brain Imaging Data Structure)に基づいてデータセットを整理する。
このデータ収集は、音声に対する時間分解脳反応の分析を大規模に符号化および復号化するための適切なベンチマークを提供する。
論文 参考訳(メタデータ) (2022-07-26T19:17:01Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn
Knowledge-driven Conversation [66.99734491847076]
我々は,中国語の多分野知識駆動会話データセットKdConvを提案する。
私たちのコーパスには3つのドメイン(映画、音楽、旅行)から4.5Kの会話と、平均19.0の回転数で86Kの発話が含まれています。
論文 参考訳(メタデータ) (2020-04-08T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。