論文の概要: Lahjoita puhetta -- a large-scale corpus of spoken Finnish with some
benchmarks
- arxiv url: http://arxiv.org/abs/2203.12906v1
- Date: Thu, 24 Mar 2022 07:50:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 22:20:56.868712
- Title: Lahjoita puhetta -- a large-scale corpus of spoken Finnish with some
benchmarks
- Title(参考訳): Lahjoita puhetta - いくつかのベンチマークによるフィンランド語話者の大規模コーパス
- Authors: Anssi Moisio, Dejan Porjazovski, Aku Rouhe, Yaroslav Getman, Anja
Virkkunen, Tam\'as Gr\'osz, Krister Lind\'en and Mikko Kurimo
- Abstract要約: ドナート・スピーチ・キャンペーンはフィンランドの通常の口頭で約3600時間のスピーチを収集することに成功している。
収集の主な目的は、フィンランド語を自発的に研究するための代表的かつ大規模な資源を作成し、言語技術と音声ベースのサービスの開発を加速することであった。
収集プロセスと収集コーパスを示し,その汎用性を複数のユースケースで示す。
- 参考スコア(独自算出の注目度): 9.160401226886947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Donate Speech campaign has so far succeeded in gathering approximately
3600 hours of ordinary, colloquial Finnish speech into the Lahjoita puhetta
(Donate Speech) corpus. The corpus includes over twenty thousand speakers from
all the regions of Finland and from all age brackets. The primary goals of the
collection were to create a representative, large-scale resource to study
spontaneous spoken Finnish and to accelerate the development of language
technology and speech-based services. In this paper, we present the collection
process and the collected corpus, and showcase its versatility through multiple
use cases. The evaluated use cases include: automatic speech recognition of
spontaneous speech, detection of age, gender, dialect and topic and metadata
analysis. We provide benchmarks for the use cases, as well down loadable,
trained baseline systems with open-source code for reproducibility. One further
use case is to verify the metadata and transcripts given in this corpus itself,
and to suggest artificial metadata and transcripts for the part of the corpus
where it is missing.
- Abstract(参考訳): ドナート・スピーチ・キャンペーンは、現在までに約3600時間のフィンランドの通常の口語的なスピーチをラホイタ・プヘッタ (lahjoita puhetta, ドナート・スピーチ) コーパスに集めている。
このコーパスにはフィンランドのすべての地域とすべての年齢層からの2万人以上の話者が含まれている。
収集の主な目的は、フィンランド語を自発的に研究するための代表的かつ大規模な資源を作成し、言語技術と音声ベースのサービスの開発を加速することであった。
本稿では,収集プロセスと収集コーパスについて述べるとともに,その汎用性を複数のユースケースで示す。
評価されたユースケースは, 自然発話の自動音声認識, 年齢, 性別, 方言, 話題, メタデータ分析である。
ユースケースのベンチマークと、再現性のためのオープンソースコードを備えたロード可能でトレーニングされたベースラインシステムを提供しています。
もう一つのユースケースは、このコーパス自体に与えられたメタデータと転写を検証し、コーパスの一部に人工的なメタデータと転写を提案することである。
関連論文リスト
- The Faetar Benchmark: Speech Recognition in a Very Under-Resourced Language [4.077418516695122]
Faetarには標準的な正書法がなく、ベンチマークに含まれるもの以外のテキストや音声のリソースはほとんどない。
コーパスはフィールド録音に由来するが、ほとんどはノイズがあり、5時間しか一致した書き起こしがない。
我々は,現在最先端の多言語音声基礎モデルによる電話誤り率30.4%のベースライン結果について報告する。
論文 参考訳(メタデータ) (2024-09-12T14:55:33Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Annotated Speech Corpus for Low Resource Indian Languages: Awadhi,
Bhojpuri, Braj and Magahi [2.84214511742034]
Awadhi, Bhojpuri, Braj, Magahiの4つの低リソースインド・アーリア語のための音声コーパスを開発する。
現在、コーパスの総サイズは約18時間である。
新型コロナウイルスのパンデミックの真っ最中に行われたこれらの言語におけるデータ収集の方法論について論じる。
論文 参考訳(メタデータ) (2022-06-26T17:28:38Z) - The Open corpus of the Veps and Karelian languages: overview and
applications [52.77024349608834]
The Open Corpus of the Veps and Karelian Languages (VepKar)は、2009年に設立されたVepsの拡張である。
VepKarコーパスは、カレリア語とヴェプス語のテキスト、それにリンクされた多機能辞書、高度な検索システムを備えたソフトウェアで構成されている。
今後の計画には、音声録音を扱うための音声モジュールと、形態解析出力を用いた構文タグ付けモジュールの開発が含まれる。
論文 参考訳(メタデータ) (2022-06-08T13:05:50Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Creating Speech-to-Speech Corpus from Dubbed Series [8.21384946488751]
本稿では,音声合成コーパスを構築するための教師なし手法を提案する。
提案手法は,ビデオフレーム,音声認識,機械翻訳,ノイズフレーム除去アルゴリズムを利用して,両言語のセグメントをマッチングする。
私たちのパイプラインは17時間のペアセグメントを生成することができました。
論文 参考訳(メタデータ) (2022-03-07T18:52:48Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文 参考訳(メタデータ) (2021-05-09T08:24:33Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z) - Mapping Languages: The Corpus of Global Language Use [0.0]
本稿では,このコーパスがデータ駆動型言語マッピングにどのように使用できるかに着目し,グローバル言語を用いたWebベースのコーパスについて述べる。
コーパスには148の言語と158の国を表す423億語が含まれている。
論文 参考訳(メタデータ) (2020-04-02T03:42:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。