論文の概要: Open Source MagicData-RAMC: A Rich Annotated Mandarin
Conversational(RAMC) Speech Dataset
- arxiv url: http://arxiv.org/abs/2203.16844v1
- Date: Thu, 31 Mar 2022 07:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-01 15:41:43.929150
- Title: Open Source MagicData-RAMC: A Rich Annotated Mandarin
Conversational(RAMC) Speech Dataset
- Title(参考訳): オープンソースのMagicData-RAMC: リッチアノテートマンダリン会話(RAMC)音声データセット
- Authors: Zehui Yang, Yifan Chen, Lei Luo, Runyan Yang, Lingxuan Ye, Gaofeng
Cheng, Ji Xu, Yaohui Jin, Qingqing Zhang, Pengyuan Zhang, Lei Xie, Yonghong
Yan
- Abstract要約: 本稿では,MagicData-RAMCと呼ばれる高品質なリッチ・アノテート・マンダリン音声データセットを提案する。
MagicData-RAMCコーパスには、中国語の母語話者が携帯電話上で16kHzのサンプリングレートで記録した180時間の会話音声データが含まれている。
- 参考スコア(独自算出の注目度): 51.75617364782418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces a high-quality rich annotated Mandarin conversational
(RAMC) speech dataset called MagicData-RAMC. The MagicData-RAMC corpus contains
180 hours of conversational speech data recorded from native speakers of
Mandarin Chinese over mobile phones with a sampling rate of 16 kHz. The dialogs
in MagicData-RAMC are classified into 15 diversified domains and tagged with
topic labels, ranging from science and technology to ordinary life. Accurate
transcription and precise speaker voice activity timestamps are manually
labeled for each sample. Speakers' detailed information is also provided. As a
Mandarin speech dataset designed for dialog scenarios with high quality and
rich annotations, MagicData-RAMC enriches the data diversity in the Mandarin
speech community and allows extensive research on a series of speech-related
tasks, including automatic speech recognition, speaker diarization, topic
detection, keyword search, text-to-speech, etc. We also conduct several
relevant tasks and provide experimental results to help evaluate the dataset.
- Abstract(参考訳): 本稿では,magicdata-ramc という,高品質なリッチなアノテートマンダリン会話(ramc)音声データセットを提案する。
MagicData-RAMCコーパスには、中国語の母語話者が携帯電話上で16kHzのサンプリングレートで記録した180時間の会話音声データが含まれている。
MagicData-RAMCのダイアログは15の多様化されたドメインに分類され、科学や技術から普通の生活まで、トピックラベルでタグ付けされる。
サンプル毎に正確な書き起こしと正確な話者音声活動タイムスタンプを手動でラベル付けする。
講演者の詳細な情報も提供される。
高品質でリッチなアノテーションを備えたダイアログシナリオ用に設計されたマンダリン音声データセットとして、MagicData-RAMCは、マンダリン音声コミュニティにおけるデータの多様性を強化し、自動音声認識、話者ダイアリゼーション、トピック検出、キーワード検索、テキスト音声など、一連の音声関連タスクに関する広範な研究を可能にする。
関連するタスクもいくつか実施し、データセットを評価するための実験結果を提供しています。
関連論文リスト
- MAVD: The First Open Large-Scale Mandarin Audio-Visual Dataset with
Depth Information [21.864200803678003]
この研究は、64人の中国語話者によって話される12,484発の発声からなる、新しい大規模マンダリンマルチモーダルコーパスであるMAVDを確立する。
データセットがさまざまな実世界のシナリオをカバーすることを保証するため、原文のクリーニングとフィルタリングのためのパイプラインが開発された。
特に、Microsoftの最新のデータ取得デバイスであるAzure Kinectは、データ取得中に従来のオーディオ信号とRGBイメージに加えて、奥行き情報をキャプチャするために使用される。
論文 参考訳(メタデータ) (2023-06-04T05:00:12Z) - MD3: The Multi-Dialect Dataset of Dialogues [20.144004030947507]
本稿では,インド,ナイジェリア,米国から英語を表現した会話音声のデータセットを紹介する。
データセットには、20時間以上のオーディオと、20万以上の正書法で書き起こされたトークンが含まれている。
論文 参考訳(メタデータ) (2023-05-19T00:14:10Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - The Conversational Short-phrase Speaker Diarization (CSSD) Task:
Dataset, Evaluation Metric and Baselines [63.86406909879314]
本稿では,会話短文話者ダイアリゼーション(CSSD)タスクについて述べる。
トレーニングとテストのデータセット、評価基準、ベースラインで構成されている。
距離の面では,発話レベルでのSD精度を算出する新しい対話型DER (CDER) 評価指標を設計する。
論文 参考訳(メタデータ) (2022-08-17T03:26:23Z) - MEG-MASC: a high-quality magneto-encephalography dataset for evaluating
natural speech processing [1.345669927504424]
MEG-MASC"データセットは、27人の英語話者の生磁気脳波(MEG)記録のキュレートされたセットを提供する。
記録のメタデータに各単語と音素のオンセットとオフセットをタイムスタンプし、BIDS(Brain Imaging Data Structure)に基づいてデータセットを整理する。
このデータ収集は、音声に対する時間分解脳反応の分析を大規模に符号化および復号化するための適切なベンチマークを提供する。
論文 参考訳(メタデータ) (2022-07-26T19:17:01Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - Automatic Speech Recognition Datasets in Cantonese Language: A Survey
and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。
哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。
MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文 参考訳(メタデータ) (2022-01-07T12:09:15Z) - KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn
Knowledge-driven Conversation [66.99734491847076]
我々は,中国語の多分野知識駆動会話データセットKdConvを提案する。
私たちのコーパスには3つのドメイン(映画、音楽、旅行)から4.5Kの会話と、平均19.0の回転数で86Kの発話が含まれています。
論文 参考訳(メタデータ) (2020-04-08T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。