論文の概要: STT4SG-350: A Speech Corpus for All Swiss German Dialect Regions
- arxiv url: http://arxiv.org/abs/2305.18855v1
- Date: Tue, 30 May 2023 08:49:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 17:18:20.671782
- Title: STT4SG-350: A Speech Corpus for All Swiss German Dialect Regions
- Title(参考訳): STT4SG-350: スイス全ドイツ語方言の音声コーパス
- Authors: Michel Pl\"uss, Jan Deriu, Yanick Schraner, Claudio Paonessa, Julia
Hartmann, Larissa Schmidt, Christian Scheller, Manuela H\"urlimann, Tanja
Samard\v{z}i\'c, Manfred Vogel, Mark Cieliebak
- Abstract要約: 本稿では,STT4SG-350(Speech-to-Text for Swiss German)について述べる。
データは、話者が標準ドイツ語の文を表示するWebアプリを使って収集され、スイスドイツ語に翻訳され、記録される。
全ての方言地域から343時間のスピーチがあり、現在までスイスドイツ人にとって最大の公的なスピーチコーパスである。
- 参考スコア(独自算出の注目度): 5.6787416472329495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present STT4SG-350 (Speech-to-Text for Swiss German), a corpus of Swiss
German speech, annotated with Standard German text at the sentence level. The
data is collected using a web app in which the speakers are shown Standard
German sentences, which they translate to Swiss German and record. We make the
corpus publicly available. It contains 343 hours of speech from all dialect
regions and is the largest public speech corpus for Swiss German to date.
Application areas include automatic speech recognition (ASR), text-to-speech,
dialect identification, and speaker recognition. Dialect information, age
group, and gender of the 316 speakers are provided. Genders are equally
represented and the corpus includes speakers of all ages. Roughly the same
amount of speech is provided per dialect region, which makes the corpus ideally
suited for experiments with speech technology for different dialects. We
provide training, validation, and test splits of the data. The test set
consists of the same spoken sentences for each dialect region and allows a fair
evaluation of the quality of speech technologies in different dialects. We
train an ASR model on the training set and achieve an average BLEU score of
74.7 on the test set. The model beats the best published BLEU scores on 2 other
Swiss German ASR test sets, demonstrating the quality of the corpus.
- Abstract(参考訳): 我々はスイスドイツ語のコーパスであるSTT4SG-350(Speech-to-Text)を文レベルで標準ドイツ語のテキストで注釈付けした。
データは、話者が標準ドイツ語の文を表示するWebアプリを使って収集され、スイスドイツ語に翻訳され、記録される。
コーパスを公開しています。
全ての方言地域から343時間のスピーチがあり、現在までスイスドイツ人にとって最大の公的なスピーチコーパスである。
応用分野には、自動音声認識(asr)、音声合成、方言識別、話者認識などがある。
316人の話者の方言情報、年齢グループ、性別が提供される。
性別は等しく表現され、コーパスにはすべての年齢の話者が含まれる。
ほぼ同じ量の音声が方言領域毎に提供されるため、コーパスは異なる方言に対する音声技術の実験に最適である。
データのトレーニング、検証、テストの分割を提供します。
テストセットは、方言領域毎に同じ音声文で構成され、異なる方言における音声技術の品質を公平に評価することができる。
トレーニングセット上でASRモデルをトレーニングし、テストセット上での平均BLEUスコア74.7を達成する。
このモデルはスイスの他の2つのasrテストセットのbleuスコアを上回り、コーパスの品質を示している。
関連論文リスト
- Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。
データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。
提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文 参考訳(メタデータ) (2024-06-10T11:28:29Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - SDS-200: A Swiss German Speech to Standard German Text Corpus [5.370317759946287]
SDS-200は、標準ドイツ語翻訳によるスイスドイツ語方言のコーパスである。
データはウェブ記録ツールを使って収集され、一般に公開されている。
このデータは、約4000人の異なる話者による200時間のスピーチで構成され、スイス・ドイツ方言の風景の大部分をカバーしている。
論文 参考訳(メタデータ) (2022-05-19T12:16:29Z) - Lahjoita puhetta -- a large-scale corpus of spoken Finnish with some
benchmarks [9.160401226886947]
ドナート・スピーチ・キャンペーンはフィンランドの通常の口頭で約3600時間のスピーチを収集することに成功している。
収集の主な目的は、フィンランド語を自発的に研究するための代表的かつ大規模な資源を作成し、言語技術と音声ベースのサービスの開発を加速することであった。
収集プロセスと収集コーパスを示し,その汎用性を複数のユースケースで示す。
論文 参考訳(メタデータ) (2022-03-24T07:50:25Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Dialectal Speech Recognition and Translation of Swiss German Speech to
Standard German Text: Microsoft's Submission to SwissText 2021 [17.675379299410054]
スイスドイツ語(Swiss German)は、スイスのドイツ語圏で話されるアレマン語の方言。
本稿では,翻訳を組み込んだ辞書を用いたハイブリッド音声認識システムを提案する。
我々の応募は盲目の会話テストセットで46.04% BLEUに達し、第2位の競争相手を12%の差で上回っている。
論文 参考訳(メタデータ) (2021-06-15T13:34:02Z) - English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文 参考訳(メタデータ) (2021-05-09T08:24:33Z) - Swiss Parliaments Corpus, an Automatically Aligned Swiss German Speech
to Standard German Text Corpus [2.610806620660055]
このコーパスの最初のバージョンは、ベルヌ州議会の公開データに基づいており、293時間のデータで構成されている。
新規な強制文アライメント手順とアライメント品質推定器を用いて作成された。
我々は,データの各サブセットのベースラインとして自動音声認識(ASR)モデルを訓練し,SPCテストセットで0.278のワード誤り率(WER)と0.586のBLEUスコアを達成した。
論文 参考訳(メタデータ) (2020-10-06T15:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。