論文の概要: MASRI-HEADSET: A Maltese Corpus for Speech Recognition
- arxiv url: http://arxiv.org/abs/2008.05760v1
- Date: Thu, 13 Aug 2020 08:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 22:28:36.011648
- Title: MASRI-HEADSET: A Maltese Corpus for Speech Recognition
- Title(参考訳): MASRI-HEADSET: 音声認識のためのマルタコーパス
- Authors: Carlos Mena, Albert Gatt, Andrea DeMarco, Claudia Borg, Lonneke van
der Plas, Amanda Muscat, Ian Padovani
- Abstract要約: MASRI-HEADSETコーパスはマルタ大学のMASRIプロジェクトによって開発された。
実験室環境における短いテキストスニペットを用いて、テキストと組み合わせた8時間の音声で構成されている。
- 参考スコア(独自算出の注目度): 2.531017234349422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maltese, the national language of Malta, is spoken by approximately 500,000
people. Speech processing for Maltese is still in its early stages of
development. In this paper, we present the first spoken Maltese corpus designed
purposely for Automatic Speech Recognition (ASR). The MASRI-HEADSET corpus was
developed by the MASRI project at the University of Malta. It consists of 8
hours of speech paired with text, recorded by using short text snippets in a
laboratory environment. The speakers were recruited from different geographical
locations all over the Maltese islands, and were roughly evenly distributed by
gender. This paper also presents some initial results achieved in baseline
experiments for Maltese ASR using Sphinx and Kaldi. The MASRI-HEADSET Corpus is
publicly available for research/academic purposes.
- Abstract(参考訳): マルタの国語であるマルタ語は、約50万人が話している。
マルタ語のための音声処理はまだ開発の初期段階にある。
本稿では,自動音声認識(ASR)のために設計された最初のマルタ語コーパスを提案する。
MASRI-HEADSETコーパスはマルタ大学のMASRIプロジェクトによって開発された。
実験室環境における短いテキストスニペットを用いて、テキストと組み合わせた8時間の音声で構成されている。
講演者はマルタ島全域の異なる地理的な場所から募集され、ほぼ均等に性別で配布された。
本稿では,マルタASRのベースライン実験において,Sphinx と Kaldi を用いた最初の結果を示す。
MASRI-HEADSET Corpusは研究・学術目的で公開されている。
関連論文リスト
- mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。
163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。
さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2024-06-13T00:13:32Z) - IMaSC -- ICFOSS Malayalam Speech Corpus [0.0]
約50時間の音声を含むマラヤラム語テキストと音声コーパスであるIMaSCについて述べる。
8つのスピーカーと合計34,473のテキストオーディオペアを持つIMaSCは、他のすべてのパブリックな代替品よりも大きい。
以上の結果から,我々のモデルでは,従来の研究や公開モデルに比べて自然度が有意に向上し,平均世論スコアは4.50であることがわかった。
論文 参考訳(メタデータ) (2022-11-23T09:21:01Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - Lahjoita puhetta -- a large-scale corpus of spoken Finnish with some
benchmarks [9.160401226886947]
ドナート・スピーチ・キャンペーンはフィンランドの通常の口頭で約3600時間のスピーチを収集することに成功している。
収集の主な目的は、フィンランド語を自発的に研究するための代表的かつ大規模な資源を作成し、言語技術と音声ベースのサービスの開発を加速することであった。
収集プロセスと収集コーパスを示し,その汎用性を複数のユースケースで示す。
論文 参考訳(メタデータ) (2022-03-24T07:50:25Z) - Comprehensive Benchmark Datasets for Amharic Scene Text Detection and
Recognition [56.048783994698425]
Ethiopic/Amharicスクリプトはアフリカ最古の書記システムの一つで、東アフリカで少なくとも23の言語に対応している。
アムハラ語の表記体系である Abugida は282音節、15句の句読点、20の数字を持つ。
HUST-ART, HUST-AST, ABE, Tana という,自然界におけるアムハラ文字の検出と認識のための総合的な公開データセットを提示した。
論文 参考訳(メタデータ) (2022-03-23T03:19:35Z) - Data Augmentation for Speech Recognition in Maltese: A Low-Resource
Perspective [4.6898263272139795]
マルタ語における音声認識改善のためのデータ拡張手法を検討する。
本稿では,教師なし学習,多言語学習,合成音声を訓練データとして利用する3つのデータ拡張について考察する。
この結果から,3つのデータ拡張手法を組み合わせることで,言語モデルを用いることなく,WERの絶対値が15%向上することが示唆された。
論文 参考訳(メタデータ) (2021-11-15T14:28:21Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Model-based analysis of brain activity reveals the hierarchy of language
in 305 subjects [82.81964713263483]
言語の神経基盤を分解する一般的なアプローチは、個人間で異なる刺激に対する脳の反応を関連付けている。
そこで本研究では,自然刺激に曝露された被験者に対して,モデルに基づくアプローチが等価な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-12T15:30:21Z) - QASR: QCRI Aljazeera Speech Resource -- A Large Scale Annotated Arabic
Speech Corpus [11.113497373432411]
本稿では,放送領域から収集したアラビア語音声コーパス,QASRについて紹介する。
この多言語音声データセットは、アルジャジーラのニュースチャンネルからクロールされた16kHzでサンプリングされた2000時間の音声を含む。
論文 参考訳(メタデータ) (2021-06-24T13:20:40Z) - English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文 参考訳(メタデータ) (2021-05-09T08:24:33Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。