論文の概要: FalAR: A Large-scale Speaker-Annotated European Portuguese Speech Corpus of Parliamentary Sessions
- arxiv url: http://arxiv.org/abs/2605.27062v1
- Date: Tue, 26 May 2026 14:14:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.211277
- Title: FalAR: A Large-scale Speaker-Annotated European Portuguese Speech Corpus of Parliamentary Sessions
- Title(参考訳): FalAR: 欧州議会セッションの大規模講演者注釈付き欧州ポルトガル語音声コーパス
- Authors: Francisco Teixeira, Carlos Carvalho, Mariana Julião, Catarina Botelho, Rubén Solera-Ureña, Sérgio Paulo, Thomas Rolland, Ben Peters, Isabel Trancoso, Alberto Abad,
- Abstract要約: FalAR (FalAR) は、ポルトガル議会の大規模な演説コーパスである。
本稿では,データ収集プロセスとFalARコーパスの主な特徴について述べる。
- 参考スコア(独自算出の注目度): 22.163686533640057
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: State-of-the-art performance for Automatic Speech Recognition (ASR) largely depends on the availability of large-scale labeled corpora. This creates a demand for increased data collection efforts, particularly for under-represented languages and dialectal varieties. Due to having considerably fewer speakers (around 11 million), European Portuguese (EP) is overshadowed by Brazilian Portuguese (BP) (around 200 million speakers) in currently available large-scale speech data resources, resulting in under-performing speech-based systems for EP users. To address this gap, and following similar data collection efforts for other languages, we present FalAR, a large-scale, speaker-annotated speech corpus of European Portuguese parliamentary sessions. Spanning approximately 20 years, FalAR comprises 5,800 hours of speech data. In addition, 4,850 hours have speaker identity annotations, for a total of 1,180 speakers with associated metadata including age, gender, political affiliation, and parliamentary role. The corpus was built using a state-of-the-art EP CAMÕES ASR model for transcription-reference alignment. In this paper, we describe the data collection process, together with the main characteristics of the FalAR corpus. Furthermore, we evaluate the trade-off between data quantity and alignment accuracy on ASR performance, with our experiments demonstrating that incorporating FalAR as pre-training data yields up to 14% relative WER improvement over baseline models.
- Abstract(参考訳): 音声認識(ASR)の最先端性能は,大規模ラベル付きコーパスの利用可能性に大きく依存する。
これはデータ収集の努力の増加、特に表現不足の言語や方言の品種に対する需要を生み出します。
話者がかなり少ない(約1100万人)ため、欧州ポルトガル語(EP)はブラジルポルトガル語(BP)(約2億人)によって現在利用可能な大規模音声データリソースに隠蔽され、EPユーザにとって低パフォーマンスな音声ベースのシステムが実現している。
このギャップに対処し、また、他の言語に対する同様のデータ収集活動に続いて、ポルトガル議会セッションの大規模かつ話者対応のスピーチコーパスであるFalARを提示する。
約20年間、FalARは5,800時間の音声データで構成されている。
さらに、4,850時間には話者識別アノテーションがあり、年齢、性別、政治的アフィリエイト、議会の役割などに関連するメタデータを含む合計1,180人の話者がいる。
コーパスは、転写と参照のアライメントに最先端のEP CAM ES ASRモデルを使用して構築された。
本稿では,データ収集プロセスとFalARコーパスの主な特徴について述べる。
さらに,データ量とアライメント精度のトレードオフを評価し,FalARを事前学習データとして組み込むことで,ベースラインモデルよりも14%の相対的なWER改善が得られることを示した。
関連論文リスト
- An Empirical Recipe for Universal Phone Recognition [63.45609714127985]
音声認識(PR)は、多言語および低リソースの音声処理タスクの鍵となる機能である。
我々は、大規模多言語データに基づいて訓練されたPhonticXEUSを提案する。
多言語(17.7%PFER)とアクセント付き英語(10.6%PFER)の両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-03-30T22:12:48Z) - Supercharging Agenda Setting Research: The ParlaCAP Dataset of 28 European Parliaments and a Scalable Multilingual LLM-Based Classification [0.5666456827479577]
ParlaCAPは、欧州全体で設定されている議会議題を分析するための大規模なデータセットである。
本稿では,欧州の議会アジェンダを解析するための大規模データセットであるParlaCAPを紹介する。
論文 参考訳(メタデータ) (2026-02-18T15:04:30Z) - PRiSM: Benchmarking Phone Realization in Speech Models [70.82595415252682]
音声認識(PR)は言語に依存しない言語間音声処理と音声解析のためのアトミックインタフェースとして機能する。
PRiSMは、音声知覚における盲点を明らかにするために設計された、最初のオープンソースベンチマークである。
論文 参考訳(メタデータ) (2026-01-20T15:00:36Z) - Toward Conversational Hungarian Speech Recognition: Introducing the BEA-Large and BEA-Dialogue Datasets [1.3575563075756973]
ハンガリー語音声コーパス BEA の未処理部分から構築した BEA-Large と BEA-Dialogue という2つの新しいデータセットを紹介した。
BEA-LargeはBEA-Baseを拡張し、433人の話者による255時間の自発的なスピーチを、詳細なセグメントレベルのメタデータで豊かにする。
BEA-ダイアログ(BEA-Dialogue)は、自然対話を話者に依存しないサブセットに分割したハンガリー語音声コーパスである。
論文 参考訳(メタデータ) (2025-11-17T16:02:08Z) - EuroSpeech: A Multilingual Speech Corpus [35.79691721955664]
議会記録から音声データセットを構築するためのスケーラブルなパイプラインを提案する。
このパイプラインを22の欧州議会の録音に適用し、61万時間以上の一致した音声セグメントを抽出します。
データセット上で既存のASRモデルを微調整した場合,平均41.8%の単語誤り率をベースラインで削減する。
論文 参考訳(メタデータ) (2025-10-01T04:51:45Z) - MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Political corpus creation through automatic speech recognition on EU
debates [4.670305538969914]
我々は、EU議会のLIBE委員会の書き起こされたコーパスを提示し、合計360万のランニングワードを提示する。
EUの議会委員会の会合は、政治科学者にとって潜在的に価値のある情報源であるが、データは限られたメタデータと共に音声記録としてのみ公開されているため、簡単には入手できない。
我々は,会議の音声記録の正確なテキスト書き起こしを行うために,最も適切な自動音声認識(ASR)モデルについて検討した。
論文 参考訳(メタデータ) (2023-04-17T10:41:59Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。