論文の概要: SDS-200: A Swiss German Speech to Standard German Text Corpus
- arxiv url: http://arxiv.org/abs/2205.09501v1
- Date: Thu, 19 May 2022 12:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 12:05:30.095331
- Title: SDS-200: A Swiss German Speech to Standard German Text Corpus
- Title(参考訳): sds-200 - スイスの標準ドイツ語テキストコーパス用音声。
- Authors: Michel Pl\"uss, Manuela H\"urlimann, Marc Cuny, Alla St\"ockli,
Nikolaos Kapotis, Julia Hartmann, Malgorzata Anna Ulasik, Christian Scheller,
Yanick Schraner, Amit Jain, Jan Deriu, Mark Cieliebak, Manfred Vogel
- Abstract要約: SDS-200は、標準ドイツ語翻訳によるスイスドイツ語方言のコーパスである。
データはウェブ記録ツールを使って収集され、一般に公開されている。
このデータは、約4000人の異なる話者による200時間のスピーチで構成され、スイス・ドイツ方言の風景の大部分をカバーしている。
- 参考スコア(独自算出の注目度): 5.370317759946287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SDS-200, a corpus of Swiss German dialectal speech with Standard
German text translations, annotated with dialect, age, and gender information
of the speakers. The dataset allows for training speech translation, dialect
recognition, and speech synthesis systems, among others. The data was collected
using a web recording tool that is open to the public. Each participant was
given a text in Standard German and asked to translate it to their Swiss German
dialect before recording it. To increase the corpus quality, recordings were
validated by other participants. The data consists of 200 hours of speech by
around 4000 different speakers and covers a large part of the Swiss-German
dialect landscape. We release SDS-200 alongside a baseline speech translation
model, which achieves a word error rate (WER) of 30.3 and a BLEU score of 53.1
on the SDS-200 test set. Furthermore, we use SDS-200 to fine-tune a pre-trained
XLS-R model, achieving 21.6 WER and 64.0 BLEU.
- Abstract(参考訳): SDS-200は、標準ドイツ語のテキスト翻訳によるスイスドイツ語方言のコーパスであり、話者の方言、年齢、性別情報に注釈を付けたものである。
このデータセットは、音声翻訳、方言認識、音声合成システムなどの訓練を可能にする。
データは一般に公開されているウェブ記録ツールを使って収集された。
各参加者は標準ドイツ語でテキストを与えられ、録音する前にスイスドイツ語の方言に翻訳するよう求められた。
コーパスの品質を高めるため、他の参加者によって録音が検証された。
このデータは、約4000人の異なる話者による200時間のスピーチで構成され、スイス・ドイツ方言の風景の大部分をカバーしている。
SDS-200をベースライン音声翻訳モデルとともにリリースし、SDS-200テストセット上でワード誤り率(WER)30.3とBLEUスコア53.1を達成する。
さらに、SDS-200を用いて事前学習したXLS-Rモデルを微調整し、21.6 WERおよび64.0BLEUを達成する。
関連論文リスト
- Towards Robust Speech Representation Learning for Thousands of Languages [77.2890285555615]
自己教師付き学習(SSL)は、ラベル付きデータの必要性を減らすことで、音声技術をより多くの言語に拡張するのに役立つ。
我々は4057言語にまたがる100万時間以上のデータに基づいて訓練された、ユニバーサル音声のための言語横断言語であるXEUSを提案する。
論文 参考訳(メタデータ) (2024-06-30T21:40:26Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - KIT's Multilingual Speech Translation System for IWSLT 2023 [58.5152569458259]
IWSLT 2023の多言語トラックに対する音声翻訳システムについて述べる。
このタスクは、様々な量のリソースを持つ10の言語に翻訳する必要がある。
我々のケースド音声システムは、科学的な話の翻訳において、エンドツーエンドの音声よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-06-08T16:13:20Z) - STT4SG-350: A Speech Corpus for All Swiss German Dialect Regions [5.6787416472329495]
本稿では,STT4SG-350(Speech-to-Text for Swiss German)について述べる。
データは、話者が標準ドイツ語の文を表示するWebアプリを使って収集され、スイスドイツ語に翻訳され、記録される。
全ての方言地域から343時間のスピーチがあり、現在までスイスドイツ人にとって最大の公的なスピーチコーパスである。
論文 参考訳(メタデータ) (2023-05-30T08:49:38Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - The Norwegian Parliamentary Speech Corpus [0.5874142059884521]
ノルウェー議会演説コーパス(Norwear Parliamentary Speech Corpus、NPSC)は、ノルウェー議会の会議の記録を収録した音声データセットである。
これは、自動音声認識(ASR)システムのトレーニング用に設計された、未記述のノルウェー語音声を含む、初めて公開されたデータセットである。
NPSCの訓練は、基準系から高いWERを持つ方言では一般的に改善が大きくなるため、方言の観点からは「民主化」効果がある。
論文 参考訳(メタデータ) (2022-01-26T11:41:55Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Dialectal Speech Recognition and Translation of Swiss German Speech to
Standard German Text: Microsoft's Submission to SwissText 2021 [17.675379299410054]
スイスドイツ語(Swiss German)は、スイスのドイツ語圏で話されるアレマン語の方言。
本稿では,翻訳を組み込んだ辞書を用いたハイブリッド音声認識システムを提案する。
我々の応募は盲目の会話テストセットで46.04% BLEUに達し、第2位の競争相手を12%の差で上回っている。
論文 参考訳(メタデータ) (2021-06-15T13:34:02Z) - SwissDial: Parallel Multidialectal Corpus of Spoken Swiss German [22.30271453485001]
我々は8つの主要な方言にまたがるスイス系ドイツ語の最初の注釈付き並列コーパスと標準ドイツ語の参照を紹介する。
私たちの目標は、スイスドイツ語でデータ駆動nlpアプリケーションを使用するための基本的なデータセットを作成し、利用可能にすることです。
論文 参考訳(メタデータ) (2021-03-21T14:00:09Z) - Swiss Parliaments Corpus, an Automatically Aligned Swiss German Speech
to Standard German Text Corpus [2.610806620660055]
このコーパスの最初のバージョンは、ベルヌ州議会の公開データに基づいており、293時間のデータで構成されている。
新規な強制文アライメント手順とアライメント品質推定器を用いて作成された。
我々は,データの各サブセットのベースラインとして自動音声認識(ASR)モデルを訓練し,SPCテストセットで0.278のワード誤り率(WER)と0.586のBLEUスコアを達成した。
論文 参考訳(メタデータ) (2020-10-06T15:18:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。