論文の概要: Phonetic Segmentation of the UCLA Phonetics Lab Archive
- arxiv url: http://arxiv.org/abs/2403.19509v1
- Date: Thu, 28 Mar 2024 15:42:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 15:44:37.898872
- Title: Phonetic Segmentation of the UCLA Phonetics Lab Archive
- Title(参考訳): UCLA音声学研究室アーカイブの音節分割
- Authors: Eleanor Chodroff, Blaž Pažon, Annie Baker, Steven Moran,
- Abstract要約: VoxAngeles (VoxAngeles) は、UCLA音声学研究所アーカイブの監査された音声書き起こしと電話レベルのアライメントのコーパスである。
VoxAngelesはCC-BY-NC 4.0ライセンスで無料でダウンロードできる。
- 参考スコア(独自算出の注目度): 2.8123433328105274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research in speech technologies and comparative linguistics depends on access to diverse and accessible speech data. The UCLA Phonetics Lab Archive is one of the earliest multilingual speech corpora, with long-form audio recordings and phonetic transcriptions for 314 languages (Ladefoged et al., 2009). Recently, 95 of these languages were time-aligned with word-level phonetic transcriptions (Li et al., 2021). Here we present VoxAngeles, a corpus of audited phonetic transcriptions and phone-level alignments of the UCLA Phonetics Lab Archive, which uses the 95-language CMU re-release as our starting point. VoxAngeles also includes word- and phone-level segmentations from the original UCLA corpus, as well as phonetic measurements of word and phone durations, vowel formants, and vowel f0. This corpus enhances the usability of the original data, particularly for quantitative phonetic typology, as demonstrated through a case study of vowel intrinsic f0. We also discuss the utility of the VoxAngeles corpus for general research and pedagogy in crosslinguistic phonetics, as well as for low-resource and multilingual speech technologies. VoxAngeles is free to download and use under a CC-BY-NC 4.0 license.
- Abstract(参考訳): 音声技術と比較言語学の研究は、多様でアクセスしやすい音声データへのアクセスに依存している。
UCLA音声学ラボアーカイブ(UCLA Phonetics Lab Archive)は、多言語音声コーパスの1つで、314言語のための長大な音声録音と音声による書き起こしがある(Ladefoged et al , 2009)。
最近、95の言語が単語レベルの音声の書き起こしに対応している(Li et al , 2021)。
ここでは,95言語CMUの再リリースを出発点として,監査音声書き起こしとUCLA音声学研究室アーカイブの電話レベルアライメントのコーパスであるVoxAngelesを紹介する。
VoxAngelesはまた、元のUCLAコーパスからの単語レベルと電話レベルのセグメンテーションや、単語と音声の持続時間、母音フォルマント、母音f0の音韻測定も含んでいる。
このコーパスは、母音固有のf0のケーススタディで示されるように、元のデータ、特に定量的な音韻の類型学における使用性を高める。
また,VoxAngeles corpus の多言語音声学における一般研究と教育への応用,低音源・多言語音声技術への応用についても論じる。
VoxAngelesはCC-BY-NC 4.0ライセンスで無料でダウンロードできる。
関連論文リスト
- The Development of a Comprehensive Spanish Dictionary for Phonetic and Lexical Tagging in Socio-phonetic Research (ESPADA) [0.0]
スペイン語の方言の変種の大部分で使用可能な、スペイン語の包括的な発音辞書(ESPADA)の作成について紹介する。
ESPADAは16か国の単語を表わす628,000以上のエントリを持つ最も完全な辞書である。
これは、スペイン語の社会音声学の枠組みにおける方言研究を強化する完全なオープンソースツールを社会音声学研究者に提供することを目的としている。
論文 参考訳(メタデータ) (2024-07-22T04:51:33Z) - Differentiable Allophone Graphs for Language-Universal Speech
Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。
本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。
我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文 参考訳(メタデータ) (2021-07-24T15:09:32Z) - QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文 参考訳(メタデータ) (2021-06-24T13:20:40Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - The Multilingual TEDx Corpus for Speech Recognition and Translation [30.993199499048824]
音声認識(ASR)および音声翻訳(ST)研究を支援するために構築された多言語TEDxコーパスについて述べる。
コーパスはTEDxの8つのソース言語による音声録音のコレクションである。
テキストを文に分割し、ソース言語音声とターゲット言語翻訳に合わせる。
論文 参考訳(メタデータ) (2021-02-02T21:16:25Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - AlloVera: A Multilingual Allophone Database [137.3686036294502]
AlloVeraは、218のアロフォンから14言語のための音素へのマッピングを提供する。
我々は、AlloVeraで構築された「ユニバーサル」アロフォンモデルであるAllosaurusが、音声書き起こしタスクにおいて「ユニバーサル」音声モデルと言語特化モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-04-17T02:02:18Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。