Fugu-MT 論文翻訳(概要): Open Source MagicData-RAMC: A Rich Annotated Mandarin Conversational(RAMC) Speech Dataset

論文の概要: Open Source MagicData-RAMC: A Rich Annotated Mandarin Conversational(RAMC) Speech Dataset

arxiv url: http://arxiv.org/abs/2203.16844v1
Date: Thu, 31 Mar 2022 07:01:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-01 15:41:43.929150
Title: Open Source MagicData-RAMC: A Rich Annotated Mandarin Conversational(RAMC) Speech Dataset
Title（参考訳）: オープンソースのMagicData-RAMC: リッチアノテートマンダリン会話(RAMC)音声データセット
Authors: Zehui Yang, Yifan Chen, Lei Luo, Runyan Yang, Lingxuan Ye, Gaofeng Cheng, Ji Xu, Yaohui Jin, Qingqing Zhang, Pengyuan Zhang, Lei Xie, Yonghong Yan
Abstract要約: 本稿では,MagicData-RAMCと呼ばれる高品質なリッチ・アノテート・マンダリン音声データセットを提案する。 MagicData-RAMCコーパスには、中国語の母語話者が携帯電話上で16kHzのサンプリングレートで記録した180時間の会話音声データが含まれている。
参考スコア（独自算出の注目度）: 51.75617364782418
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces a high-quality rich annotated Mandarin conversational (RAMC) speech dataset called MagicData-RAMC. The MagicData-RAMC corpus contains 180 hours of conversational speech data recorded from native speakers of Mandarin Chinese over mobile phones with a sampling rate of 16 kHz. The dialogs in MagicData-RAMC are classified into 15 diversified domains and tagged with topic labels, ranging from science and technology to ordinary life. Accurate transcription and precise speaker voice activity timestamps are manually labeled for each sample. Speakers' detailed information is also provided. As a Mandarin speech dataset designed for dialog scenarios with high quality and rich annotations, MagicData-RAMC enriches the data diversity in the Mandarin speech community and allows extensive research on a series of speech-related tasks, including automatic speech recognition, speaker diarization, topic detection, keyword search, text-to-speech, etc. We also conduct several relevant tasks and provide experimental results to help evaluate the dataset.
Abstract（参考訳）: 本稿では,magicdata-ramc という,高品質なリッチなアノテートマンダリン会話(ramc)音声データセットを提案する。 MagicData-RAMCコーパスには、中国語の母語話者が携帯電話上で16kHzのサンプリングレートで記録した180時間の会話音声データが含まれている。 MagicData-RAMCのダイアログは15の多様化されたドメインに分類され、科学や技術から普通の生活まで、トピックラベルでタグ付けされる。サンプル毎に正確な書き起こしと正確な話者音声活動タイムスタンプを手動でラベル付けする。講演者の詳細な情報も提供される。高品質でリッチなアノテーションを備えたダイアログシナリオ用に設計されたマンダリン音声データセットとして、MagicData-RAMCは、マンダリン音声コミュニティにおけるデータの多様性を強化し、自動音声認識、話者ダイアリゼーション、トピック検出、キーワード検索、テキスト音声など、一連の音声関連タスクに関する広範な研究を可能にする。関連するタスクもいくつか実施し、データセットを評価するための実験結果を提供しています。

関連論文リスト

WAXAL: A Large-Scale Multilingual African Language Speech Corpus [12.433885475371035]
WAXALは1億人以上の話者を表す21言語のための大規模でオープンにアクセスできる音声データセットである。このコレクションは、約1,250時間の書き起こしを含む自動音声認識(ASR)データセットと、さまざまな話者からの自然な音声を含むテキスト音声合成(TTS)データセットの2つの主要コンポーネントで構成されている。
論文参考訳（メタデータ） (2026-02-02T19:49:19Z)
A Cocktail-Party Benchmark: Multi-Modal dataset and Comparative Evaluation Results [62.01871490859886]
第9回CHiMEチャレンジにおいて,マルチモーダルコンテキスト認識(MCoRec)の課題を紹介した。 MCoRecは、録音が説明のない、カジュアルなグループチャットに集中する、自然なマルチパーティの会話をキャプチャする。このタスクでは、各話者のスピーチを共同で翻訳し、音声・視覚録音から各話者の会話にまとめることにより、「誰がいつ、何、誰と話をするのか?」という質問に答えるシステムが必要である。
論文参考訳（メタデータ） (2025-10-27T12:36:43Z)
CS-Dialogue: A 104-Hour Dataset of Spontaneous Mandarin-English Code-Switching Dialogues for Speech Recognition [17.806195208457428]
コードスイッチング(英: Code-switching)とは、1つの会話の中で2つ以上の言語を交換することである。既存のマンダリン・イングリッシュのコードスイッチングデータセットは、サイズ、自発性、および書き起こしを伴うフル長の対話記録の欠如に悩まされることが多い。 CS-Dialogueは,200人の話者から104時間の自発的な会話を含む,大規模マンダリン・イングリッシュ・コードスイッチング音声データセットである。
論文参考訳（メタデータ） (2025-02-26T07:59:55Z)
Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models [83.7506131809624]
本稿では,デジタルメディアアーカイブにおけるコンテンツアクセシビリティと検索可能性を高める重要な課題である,対話テキスト中の話者名を識別する手法を提案する。本稿では,メディアサムコーパスから派生した大規模データセットについて述べる。本稿では,話者名を正確に属性付けるために,対話中の文脈的手がかりを活用する,話者IDに適したトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2024-07-16T18:03:58Z)
EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文参考訳（メタデータ） (2024-06-10T11:28:29Z)
Advancing Speech Translation: A Corpus of Mandarin-English Conversational Telephone Speech [4.924682400857061]
本稿では,CallHome Mandarin 中国語データとHKUST Mandarin 中国語音声データの123時間サブセットに対する英訳について紹介する。マンダリン英会話音声訓練セットに汎用翻訳モデルを微調整することで,目標領域BLEUを8点以上改善できることを実証する。
論文参考訳（メタデータ） (2024-03-25T21:08:06Z)
MD3: The Multi-Dialect Dataset of Dialogues [20.144004030947507]
本稿では,インド,ナイジェリア,米国から英語を表現した会話音声のデータセットを紹介する。データセットには、20時間以上のオーディオと、20万以上の正書法で書き起こされたトークンが含まれている。
論文参考訳（メタデータ） (2023-05-19T00:14:10Z)
The Conversational Short-phrase Speaker Diarization (CSSD) Task: Dataset, Evaluation Metric and Baselines [63.86406909879314]
本稿では,会話短文話者ダイアリゼーション(CSSD)タスクについて述べる。トレーニングとテストのデータセット、評価基準、ベースラインで構成されている。距離の面では,発話レベルでのSD精度を算出する新しい対話型DER (CDER) 評価指標を設計する。
論文参考訳（メタデータ） (2022-08-17T03:26:23Z)
MEG-MASC: a high-quality magneto-encephalography dataset for evaluating natural speech processing [1.345669927504424]
MEG-MASC"データセットは、27人の英語話者の生磁気脳波(MEG)記録のキュレートされたセットを提供する。記録のメタデータに各単語と音素のオンセットとオフセットをタイムスタンプし、BIDS(Brain Imaging Data Structure)に基づいてデータセットを整理する。このデータ収集は、音声に対する時間分解脳反応の分析を大規模に符号化および復号化するための適切なベンチマークを提供する。
論文参考訳（メタデータ） (2022-07-26T19:17:01Z)
Automatic Speech Recognition Datasets in Cantonese Language: A Survey and a New Dataset [85.52036362232688]
私たちのデータセットは、香港のCandoneseオーディオブックから収集された、73.6時間のクリーンな読み上げ音声と書き起こしとの組み合わせで構成されています。哲学、政治、教育、文化、ライフスタイル、家族の領域を組み合わせて、幅広いトピックをカバーしている。 MDCC と Common Voice zh-HK にマルチデータセット学習を適用することで,強力で堅牢な Cantonese ASR モデルを作成する。
論文参考訳（メタデータ） (2022-01-07T12:09:15Z)
KdConv: A Chinese Multi-domain Dialogue Dataset Towards Multi-turn Knowledge-driven Conversation [66.99734491847076]
我々は,中国語の多分野知識駆動会話データセットKdConvを提案する。私たちのコーパスには3つのドメイン(映画、音楽、旅行)から4.5Kの会話と、平均19.0の回転数で86Kの発話が含まれています。
論文参考訳（メタデータ） (2020-04-08T16:25:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。