Fugu-MT 論文翻訳(概要): ASR Bundestag: A Large-Scale political debate dataset in German

論文の概要: ASR Bundestag: A Large-Scale political debate dataset in German

arxiv url: http://arxiv.org/abs/2302.06008v1
Date: Sun, 12 Feb 2023 21:45:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-14 17:09:50.790138
Title: ASR Bundestag: A Large-Scale political debate dataset in German
Title（参考訳）: ASR Bundestag: ドイツの大規模な政治討論データセット
Authors: Johannes Wirth, Ren\'e Peinl
Abstract要約: 本稿では,ドイツ語の自動音声認識のためのデータセットであるASR Bundestagを提案する。データセットは、教師付きトレーニングに610時間、自己教師型学習に1,038時間、アライメントされたオーディオ書き起こしペアで構成されている。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present ASR Bundestag, a dataset for automatic speech recognition in German, consisting of 610 hours of aligned audio-transcript pairs for supervised training as well as 1,038 hours of unlabeled audio snippets for self-supervised learning, based on raw audio data and transcriptions from plenary sessions and committee meetings of the German parliament. In addition, we discuss utilized approaches for the automated creation of speech datasets and assess the quality of the resulting dataset based on evaluations and finetuning of a pre-trained state of the art model. We make the dataset publicly available, including all subsets.
Abstract（参考訳）: 本稿では,ドイツ語の自動音声認識のためのデータセットであるASR Bundestagについて,教師あり学習のための610時間のアライメントされた音声書き起こしペアと,独議会のレナールセッションと委員会会議の生音声データと書き起こしに基づいて,自己教師あり学習のための1,038時間の音声スニペットを提示する。さらに,音声データセットの自動作成のための活用手法について検討し,事前学習したアートモデルの評価と微調整に基づいて,得られたデータセットの品質を評価する。すべてのサブセットを含むデータセットを公開しています。

関連論文リスト

Toward Conversational Hungarian Speech Recognition: Introducing the BEA-Large and BEA-Dialogue Datasets [1.3575563075756973]
ハンガリー語音声コーパス BEA の未処理部分から構築した BEA-Large と BEA-Dialogue という2つの新しいデータセットを紹介した。 BEA-LargeはBEA-Baseを拡張し、433人の話者による255時間の自発的なスピーチを、詳細なセグメントレベルのメタデータで豊かにする。 BEA-ダイアログ(BEA-Dialogue)は、自然対話を話者に依存しないサブセットに分割したハンガリー語音声コーパスである。
論文参考訳（メタデータ） (2025-11-17T16:02:08Z)
Towards measuring fairness in speech recognition: Fair-Speech dataset [14.703638352216132]
本論文では,ASRモデルの精度評価を支援するために,新たなデータセットであるFair-Speechを紹介した。私たちのデータセットには、米国593人による録音された音声で約26.5Kの発声が含まれています。
論文参考訳（メタデータ） (2024-08-22T20:55:17Z)
EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文参考訳（メタデータ） (2024-06-10T11:28:29Z)
Political corpus creation through automatic speech recognition on EU debates [4.670305538969914]
我々は、EU議会のLIBE委員会の書き起こされたコーパスを提示し、合計360万のランニングワードを提示する。 EUの議会委員会の会合は、政治科学者にとって潜在的に価値のある情報源であるが、データは限られたメタデータと共に音声記録としてのみ公開されているため、簡単には入手できない。我々は,会議の音声記録の正確なテキスト書き起こしを行うために,最も適切な自動音声認識(ASR)モデルについて検討した。
論文参考訳（メタデータ） (2023-04-17T10:41:59Z)
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文参考訳（メタデータ） (2023-03-02T07:47:18Z)
Exploring Capabilities of Monolingual Audio Transformers using Large Datasets in Automatic Speech Recognition of Czech [0.9653976364051563]
チェコ語単言語音声トランスフォーマーを8万時間以上のラベルなし音声を含む大規模データセットから事前学習する過程について述べる。 2つの公開データセットで評価された様々な微調整設定による実験の大規模なパレットを提示する。
論文参考訳（メタデータ） (2022-06-15T16:14:37Z)
Finnish Parliament ASR corpus - Analysis, benchmarks and statistics [11.94655679070282]
フィンランド議会では、3000時間以上の演説と449人の講演者が参加し、手書きの音声データをフィンランド語で収集した最大規模である。このコーパスは初期の作業に基づいて構築され、結果としてコーパスは2つの期間から2つのトレーニングサブセットに自然に分割される。我々は、カルディに基づく完全なデータ準備パイプラインと隠れマルコフモデル(HMM)、ハイブリッドディープニューラルネットワーク(HMM-DNN)、アテンションベースのエンコーダデコーダ(AED)ASRレシピを開発した。
論文参考訳（メタデータ） (2022-03-28T16:29:49Z)
Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文参考訳（メタデータ） (2021-12-15T18:56:35Z)
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。 WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文参考訳（メタデータ） (2021-10-26T17:55:19Z)
UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文参考訳（メタデータ） (2021-01-19T12:53:43Z)
Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文参考訳（メタデータ） (2020-05-16T15:47:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。