論文の概要: Introducing MELI: the Mandarin-English Language Interview Corpus
- arxiv url: http://arxiv.org/abs/2603.27043v1
- Date: Fri, 27 Mar 2026 23:15:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.750509
- Title: Introducing MELI: the Mandarin-English Language Interview Corpus
- Title(参考訳): MELI: マンダリン英語インタビューコーパスの紹介
- Authors: Suyuan Liu, Molly Babel,
- Abstract要約: マンダリン英語インタビュー(MELI)コーパスは,51人のマンダリン英語話者による29.8時間音声のオープンソースリソースである。
MELIは、マンダリンと英語のマッチしたセッションと、読み上げ文と、言語の種類、標準性、学習経験に関する自発的なインタビューの2つのスタイルを組み合わせる。
インタビューは完全に書き起こされ、言葉と電話のレベルで強制的に整列され、匿名化された。
- 参考スコア(独自算出の注目度): 14.322748455943755
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce the Mandarin-English Language Interview (MELI) Corpus, an open-source resource of 29.8 hours of speech from 51 Mandarin-English bilingual speakers. MELI combines matched sessions in Mandarin and English with two speaking styles: read sentences and spontaneous interviews about language varieties, standardness, and learning experiences. Audio was recorded at 44.1 kHz (16-bit, stereo). Interviews were fully transcribed, force-aligned at word and phone levels, and anonymized. Descriptively, the Mandarin component totals ~14.7 hours (mean duration 17.3 minutes) and the English component ~15.1 hours (mean duration 17.8 minutes). We report token/type statistics for each language and document code-switching patterns (frequent in Mandarin sessions; more limited in English sessions). The corpus design supports within-/cross-speaker, within/cross-language acoustic comparison and links acoustics to speakers' stated language attitudes, enabling both quantitative and qualitative analyses. The MELI Corpus will be released with transcriptions, alignments, metadata, scans of labelled maps and documentation under a CC BY-NC 4.0 license.
- Abstract(参考訳): 我々は,51人のマンダリン英語話者による29.8時間音声のオープンソースリソースである,マンダリン英語インタビュー(MELI)コーパスを紹介する。
MELIは、マンダリンと英語のマッチしたセッションと、読み上げ文と、言語の種類、標準性、学習経験に関する自発的なインタビューの2つのスタイルを組み合わせる。
オーディオは44.1kHz(16ビット、ステレオ)で録音された。
インタビューは完全に書き起こされ、言葉と電話のレベルで強制的に整列され、匿名化された。
マンダリン成分は合計で14.7時間(平均17.3分)、イングランド成分では15.1時間(平均17.8分)である。
トークン/型統計を各言語で報告し,コードスイッチングパターンを文書化する(マンダリンセッションでは頻繁に,英語セッションでは限られる)。
コーパス設計は、話者内/話者間の音響比較をサポートし、音響を話者の発言する言語態度と結びつけ、定量的および定性的な分析を可能にする。
MELI Corpusは、CC BY-NC 4.0ライセンスの下で、書き起こし、アライメント、メタデータ、ラベル付き地図のスキャン、ドキュメントと共にリリースされる。
関連論文リスト
- CS-FLEURS: A Massively Multilingual and Code-Switched Speech Dataset [99.0507412649934]
CS-FLEURSは4つのテストセットから構成されており、52言語にまたがる113の独特な言語ペアをカバーしている。
CS-FLEURSはまた、16のX字対にわたる128時間の生成テキスト音声データのトレーニングセットも提供している。
論文 参考訳(メタデータ) (2025-09-17T16:45:22Z) - Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
テキストなしの音声言語モデルは、数十秒を超える可読な音声を生成するのに苦労する。
我々は、長音の音声から学習し、サンプルする最初の音声言語モデルであるSpeechSSMを導出する。
SpeechSSMは線形時間列モデリングの最近の進歩を活用し、コヒーレンスと効率性において現在のトランスフォーマー音声LMを大幅に上回っている。
論文 参考訳(メタデータ) (2024-12-24T18:56:46Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Annotated Speech Corpus for Low Resource Indian Languages: Awadhi,
Bhojpuri, Braj and Magahi [2.84214511742034]
Awadhi, Bhojpuri, Braj, Magahiの4つの低リソースインド・アーリア語のための音声コーパスを開発する。
現在、コーパスの総サイズは約18時間である。
新型コロナウイルスのパンデミックの真っ最中に行われたこれらの言語におけるデータ収集の方法論について論じる。
論文 参考訳(メタデータ) (2022-06-26T17:28:38Z) - Open Source MagicData-RAMC: A Rich Annotated Mandarin
Conversational(RAMC) Speech Dataset [51.75617364782418]
本稿では,MagicData-RAMCと呼ばれる高品質なリッチ・アノテート・マンダリン音声データセットを提案する。
MagicData-RAMCコーパスには、中国語の母語話者が携帯電話上で16kHzのサンプリングレートで記録した180時間の会話音声データが含まれている。
論文 参考訳(メタデータ) (2022-03-31T07:01:06Z) - QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文 参考訳(メタデータ) (2021-06-24T13:20:40Z) - The Multilingual TEDx Corpus for Speech Recognition and Translation [30.993199499048824]
音声認識(ASR)および音声翻訳(ST)研究を支援するために構築された多言語TEDxコーパスについて述べる。
コーパスはTEDxの8つのソース言語による音声録音のコレクションである。
テキストを文に分割し、ソース言語音声とターゲット言語翻訳に合わせる。
論文 参考訳(メタデータ) (2021-02-02T21:16:25Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。