論文の概要: Finnish Parliament ASR corpus - Analysis, benchmarks and statistics
- arxiv url: http://arxiv.org/abs/2203.14876v1
- Date: Mon, 28 Mar 2022 16:29:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 19:03:51.072246
- Title: Finnish Parliament ASR corpus - Analysis, benchmarks and statistics
- Title(参考訳): フィンランド議会asrコーパスの分析,ベンチマーク,統計
- Authors: Anja Virkkunen and Aku Rouhe and Nhan Phan and Mikko Kurimo
- Abstract要約: フィンランド議会では、3000時間以上の演説と449人の講演者が参加し、手書きの音声データをフィンランド語で収集した最大規模である。
このコーパスは初期の作業に基づいて構築され、結果としてコーパスは2つの期間から2つのトレーニングサブセットに自然に分割される。
我々は、カルディに基づく完全なデータ準備パイプラインと隠れマルコフモデル(HMM)、ハイブリッドディープニューラルネットワーク(HMM-DNN)、アテンションベースのエンコーダデコーダ(AED)ASRレシピを開発した。
- 参考スコア(独自算出の注目度): 11.94655679070282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Public sources like parliament meeting recordings and transcripts provide
ever-growing material for the training and evaluation of automatic speech
recognition (ASR) systems. In this paper, we publish and analyse the Finnish
parliament ASR corpus, the largest publicly available collection of manually
transcribed speech data for Finnish with over 3000 hours of speech and 449
speakers for which it provides rich demographic metadata. This corpus builds on
earlier initial work, and as a result the corpus has a natural split into two
training subsets from two periods of time. Similarly, there are two official,
corrected test sets covering different times, setting an ASR task with
longitudinal distribution-shift characteristics. An official development set is
also provided. We develop a complete Kaldi-based data preparation pipeline, and
hidden Markov model (HMM), hybrid deep neural network (HMM-DNN) and
attention-based encoder-decoder (AED) ASR recipes. We set benchmarks on the
official test sets, as well as multiple other recently used test sets. Both
temporal corpus subsets are already large, and we observe that beyond their
scale, ASR performance on the official test sets plateaus, whereas other
domains benefit from added data. The HMM-DNN and AED approaches are compared in
a carefully matched equal data setting, with the HMM-DNN system consistently
performing better. Finally, the variation of the ASR accuracy is compared
between the speaker categories available in the parliament metadata to detect
potential biases based on factors such as gender, age, and education.
- Abstract(参考訳): 議会の会議記録や書き起こしなどの公開資料は、自動音声認識(ASR)システムの訓練と評価のために、成長を続ける材料を提供する。
本稿では,3000時間を超える発話データと449人の話者からなるフィンランド議会asrコーパスの公開分析を行った。
このコーパスは初期の作業に基づいて構築され、結果としてコーパスは2つの期間から2つのトレーニングサブセットに自然に分割される。
同様に、異なる時間をカバーする2つの公式な修正テストセットがあり、縦方向の分布シフト特性を持つASRタスクを設定している。
公式開発セットも用意されている。
我々は、カルディに基づく完全なデータ準備パイプラインと隠れマルコフモデル(HMM)、ハイブリッドディープニューラルネットワーク(HMM-DNN)、アテンションベースのエンコーダデコーダ(AED)ASRレシピを開発した。
公式のテストセットにベンチマークを設定し、他の複数の最近使われたテストセットにもベンチマークを設定しました。
どちらの時間的コーパスサブセットも既に大きく、その規模を超えて、公式なテストセットのASRパフォーマンスは高められるが、他のドメインは追加データから恩恵を受ける。
HMM-DNN と AED のアプローチは、HMM-DNN システムとよく一致した同値なデータ設定で比較される。
最後に、議会メタデータで利用可能な話者カテゴリー間でasrの精度のばらつきを比較し、性別、年齢、教育などの要因に基づいて潜在的なバイアスを検出する。
関連論文リスト
- ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - ASR in German: A Detailed Error Analysis [0.0]
この研究は、ドイツ語で事前訓練されたASRモデルアーキテクチャの選択を示し、様々なテストデータセットのベンチマークで評価する。
クロスアーキテクチャの予測エラーを特定し、それらをカテゴリに分類し、カテゴリ毎のエラーソースをトレーニングデータにトレースする。
論文 参考訳(メタデータ) (2022-04-12T08:25:01Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - The Norwegian Parliamentary Speech Corpus [0.5874142059884521]
ノルウェー議会演説コーパス(Norwear Parliamentary Speech Corpus、NPSC)は、ノルウェー議会の会議の記録を収録した音声データセットである。
これは、自動音声認識(ASR)システムのトレーニング用に設計された、未記述のノルウェー語音声を含む、初めて公開されたデータセットである。
NPSCの訓練は、基準系から高いWERを持つ方言では一般的に改善が大きくなるため、方言の観点からは「民主化」効果がある。
論文 参考訳(メタデータ) (2022-01-26T11:41:55Z) - An Exploration of Self-Supervised Pretrained Representations for
End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。
いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文 参考訳(メタデータ) (2021-10-09T15:06:09Z) - On-the-Fly Aligned Data Augmentation for Sequence-to-Sequence ASR [10.261890123213622]
自動音声認識(ASR)のためのオンザフライデータ拡張手法を提案する。
ASRのAligned Data Augmentation(ADA)と呼ばれる私たちのメソッドは、トランスクリプトされたトークンと音声表現を整列した方法で置き換えて、トレーニングペアを生成します。
論文 参考訳(メタデータ) (2021-04-03T13:00:00Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - Continuous speech separation: dataset and analysis [52.10378896407332]
自然な会話では、音声信号は連続的であり、重複成分と重複成分の両方を含む。
本稿では,連続音声分離アルゴリズムを評価するためのデータセットとプロトコルについて述べる。
論文 参考訳(メタデータ) (2020-01-30T18:01:31Z) - Binary and Multitask Classification Model for Dutch Anaphora Resolution:
Die/Dat Prediction [18.309099448064273]
オランダ語の代名詞「ディー」と「ダット」の正しい用法は、オランダ語の母語話者と非母語話者の双方にとって不安定なブロックである。
本研究は,オランダ語実証および相対代名詞分解のための最初のニューラルネットワークモデルを構築した。
論文 参考訳(メタデータ) (2020-01-09T12:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。