論文の概要: Toward Conversational Hungarian Speech Recognition: Introducing the BEA-Large and BEA-Dialogue Datasets
- arxiv url: http://arxiv.org/abs/2511.13529v1
- Date: Mon, 17 Nov 2025 16:02:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.349106
- Title: Toward Conversational Hungarian Speech Recognition: Introducing the BEA-Large and BEA-Dialogue Datasets
- Title(参考訳): 対話型ハンガリー語音声認識に向けて:BEA-LargeとBEA-Dialogueデータセットの導入
- Authors: Máté Gedeon, Piroska Zsófia Barta, Péter Mihajlik, Tekla Etelka Gráczi, Anna Kohári, Katalin Mády,
- Abstract要約: ハンガリー語音声コーパス BEA の未処理部分から構築した BEA-Large と BEA-Dialogue という2つの新しいデータセットを紹介した。
BEA-LargeはBEA-Baseを拡張し、433人の話者による255時間の自発的なスピーチを、詳細なセグメントレベルのメタデータで豊かにする。
BEA-ダイアログ(BEA-Dialogue)は、自然対話を話者に依存しないサブセットに分割したハンガリー語音声コーパスである。
- 参考スコア(独自算出の注目度): 1.3575563075756973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advancement of automatic speech recognition (ASR) has been largely enhanced by extensive datasets in high-resource languages, while languages such as Hungarian remain underrepresented due to limited spontaneous and conversational corpora. To address this gap, we introduce two new datasets -- BEA-Large and BEA-Dialogue -- constructed from the previously unprocessed portions of the Hungarian speech corpus named BEA. BEA-Large extends BEA-Base with 255 hours of spontaneous speech from 433 speakers, enriched with detailed segment-level metadata. BEA-Dialogue, comprising 85 hours of spontaneous conversations, is a Hungarian speech corpus featuring natural dialogues partitioned into speaker-independent subsets, supporting research in conversational ASR and speaker diarization. We establish reproducible baselines on these datasets using publicly available ASR models, with the fine-tuned Fast Conformer model achieving word error rates as low as 14.18\% on spontaneous and 4.8\% on repeated speech. Diarization experiments yield diarization error rates between 13.05\% and 18.26\%, providing reference points for future improvements. The results highlight the persistent difficulty of conversational ASR, particularly due to disfluencies, overlaps, and informal speech patterns. By releasing these datasets and baselines, we aim to advance Hungarian speech technology and offer a methodological framework for developing spontaneous and conversational benchmarks in other languages.
- Abstract(参考訳): 自動音声認識(ASR)の進歩は、高リソース言語における広範囲なデータセットによって大きく改善されているが、ハンガリー語などの言語は、自然発生性や会話性に制限があるため、表現が不足している。
このギャップに対処するため、ハンガリー語コーパスの未処理部分であるBEA-LargeとBEA-Dialogueという2つの新しいデータセットを導入しました。
BEA-LargeはBEA-Baseを拡張し、433人の話者による255時間の自発的なスピーチを、詳細なセグメントレベルのメタデータで豊かにする。
BEA-ダイアログ(BEA-Dialogue)は、自然対話を話者に依存しないサブセットに分割し、会話型ASRと話者ダイアライゼーションの研究を支援するハンガリー語コーパスである。
ASRモデルを用いて,これらのデータセットの再現可能なベースラインを構築し,単語誤り率を14.18 %,繰り返し音声で4.8 %と低めに調整したFast Conformerモデルを構築した。
ダイアリゼーション実験は13.05\%から18.26\%のダイアリゼーション誤差率をもたらし、将来の改善の基準点を提供する。
その結果,会話型ASRの難易度,特に相違点,重複点,非公式な発話パターンによる難易度が強調された。
これらのデータセットとベースラインを公開することにより、ハンガリー語音声技術の進歩と、他の言語で自然および会話のベンチマークを開発するための方法論的フレームワークの提供を目指している。
関連論文リスト
- SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Using Kaldi for Automatic Speech Recognition of Conversational Austrian
German [5.887969742827489]
本稿では,オーストリアドイツ語の読み書き実験を対象とするASR実験について述べる。
我々は知識に基づく発音レキシコンを組み込むことで、カルディに基づくASRシステムを改善する。
我々はドイツ語読み上げ音声で0.4%、会話音声で48.5%のWERを達成する。
論文 参考訳(メタデータ) (2023-01-16T15:28:28Z) - BEA-Base: A Benchmark for ASR of Spontaneous Hungarian [0.0]
BEA音声ハンガリー語データベースのサブセットであるBEA-Baseについて紹介する。
主に会話型AIアプリケーションを対象とした自動音声認識の評価に特化して構築されている。
ハンガリー語音声認識システムの訓練と評価にBEA-Baseを用いることの可能性を示す。
論文 参考訳(メタデータ) (2022-02-01T17:45:22Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。