Fugu-MT 論文翻訳(概要): Toward Conversational Hungarian Speech Recognition: Introducing the BEA-Large and BEA-Dialogue Datasets

論文の概要: Toward Conversational Hungarian Speech Recognition: Introducing the BEA-Large and BEA-Dialogue Datasets

arxiv url: http://arxiv.org/abs/2511.13529v1
Date: Mon, 17 Nov 2025 16:02:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-18 14:36:25.349106
Title: Toward Conversational Hungarian Speech Recognition: Introducing the BEA-Large and BEA-Dialogue Datasets
Title（参考訳）: 対話型ハンガリー語音声認識に向けて:BEA-LargeとBEA-Dialogueデータセットの導入
Authors: Máté Gedeon, Piroska Zsófia Barta, Péter Mihajlik, Tekla Etelka Gráczi, Anna Kohári, Katalin Mády,
Abstract要約: ハンガリー語音声コーパス BEA の未処理部分から構築した BEA-Large と BEA-Dialogue という2つの新しいデータセットを紹介した。 BEA-LargeはBEA-Baseを拡張し、433人の話者による255時間の自発的なスピーチを、詳細なセグメントレベルのメタデータで豊かにする。 BEA-ダイアログ(BEA-Dialogue)は、自然対話を話者に依存しないサブセットに分割したハンガリー語音声コーパスである。
参考スコア（独自算出の注目度）: 1.3575563075756973
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The advancement of automatic speech recognition (ASR) has been largely enhanced by extensive datasets in high-resource languages, while languages such as Hungarian remain underrepresented due to limited spontaneous and conversational corpora. To address this gap, we introduce two new datasets -- BEA-Large and BEA-Dialogue -- constructed from the previously unprocessed portions of the Hungarian speech corpus named BEA. BEA-Large extends BEA-Base with 255 hours of spontaneous speech from 433 speakers, enriched with detailed segment-level metadata. BEA-Dialogue, comprising 85 hours of spontaneous conversations, is a Hungarian speech corpus featuring natural dialogues partitioned into speaker-independent subsets, supporting research in conversational ASR and speaker diarization. We establish reproducible baselines on these datasets using publicly available ASR models, with the fine-tuned Fast Conformer model achieving word error rates as low as 14.18\% on spontaneous and 4.8\% on repeated speech. Diarization experiments yield diarization error rates between 13.05\% and 18.26\%, providing reference points for future improvements. The results highlight the persistent difficulty of conversational ASR, particularly due to disfluencies, overlaps, and informal speech patterns. By releasing these datasets and baselines, we aim to advance Hungarian speech technology and offer a methodological framework for developing spontaneous and conversational benchmarks in other languages.
Abstract（参考訳）: 自動音声認識(ASR)の進歩は、高リソース言語における広範囲なデータセットによって大きく改善されているが、ハンガリー語などの言語は、自然発生性や会話性に制限があるため、表現が不足している。このギャップに対処するため、ハンガリー語コーパスの未処理部分であるBEA-LargeとBEA-Dialogueという2つの新しいデータセットを導入しました。 BEA-LargeはBEA-Baseを拡張し、433人の話者による255時間の自発的なスピーチを、詳細なセグメントレベルのメタデータで豊かにする。 BEA-ダイアログ(BEA-Dialogue)は、自然対話を話者に依存しないサブセットに分割し、会話型ASRと話者ダイアライゼーションの研究を支援するハンガリー語コーパスである。 ASRモデルを用いて,これらのデータセットの再現可能なベースラインを構築し,単語誤り率を14.18 %,繰り返し音声で4.8 %と低めに調整したFast Conformerモデルを構築した。ダイアリゼーション実験は13.05\%から18.26\%のダイアリゼーション誤差率をもたらし、将来の改善の基準点を提供する。その結果,会話型ASRの難易度,特に相違点,重複点,非公式な発話パターンによる難易度が強調された。これらのデータセットとベースラインを公開することにより、ハンガリー語音声技術の進歩と、他の言語で自然および会話のベンチマークを開発するための方法論的フレームワークの提供を目指している。

関連論文リスト

Speaker-Aware Simulation Improves Conversational Speech Recognition [1.0251581485267474]
ハンガリー語会話型ASRのためのSASCフレームワークを適応し実装する。 C-SASC(C-SASC)は、発話時間に条件付きポーズモデリングを組み込んだ拡張版である。我々は、BEA-Largeコーパスから合成ハンガリー語対話を生成し、それらを実際の会話データと組み合わせてASR訓練を行う。
論文参考訳（メタデータ） (2026-02-04T17:12:09Z)
Multi-Level Embedding Conformer Framework for Bengali Automatic Speech Recognition [2.235406148098187]
本研究では,Bengali ASRのエンドツーエンドフレームワークを提案する。マルチレベル埋め込み融合機構を備えたConformer-CTCバックボーン上に構築されている。このモデルは、きめ細かい音素の手がかりと高レベルの文脈パターンをキャプチャする。
論文参考訳（メタデータ） (2025-12-23T04:39:12Z)
MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-27T09:01:08Z)
Generating Data with Text-to-Speech and Large-Language Models for Conversational Speech Recognition [48.527630771422935]
複数話者対話型ASRのための合成データ生成パイプラインを提案する。我々は、電話と遠隔会話音声設定のためのWhisper ASRモデルを微調整して評価を行う。
論文参考訳（メタデータ） (2024-08-17T14:47:05Z)
ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文参考訳（メタデータ） (2023-05-24T07:42:15Z)
SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。 SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文参考訳（メタデータ） (2023-05-22T13:47:51Z)
Using Kaldi for Automatic Speech Recognition of Conversational Austrian German [5.887969742827489]
本稿では,オーストリアドイツ語の読み書き実験を対象とするASR実験について述べる。我々は知識に基づく発音レキシコンを組み込むことで、カルディに基づくASRシステムを改善する。我々はドイツ語読み上げ音声で0.4%、会話音声で48.5%のWERを達成する。
論文参考訳（メタデータ） (2023-01-16T15:28:28Z)
BEA-Base: A Benchmark for ASR of Spontaneous Hungarian [0.0]
BEA音声ハンガリー語データベースのサブセットであるBEA-Baseについて紹介する。主に会話型AIアプリケーションを対象とした自動音声認識の評価に特化して構築されている。ハンガリー語音声認識システムの訓練と評価にBEA-Baseを用いることの可能性を示す。
論文参考訳（メタデータ） (2022-02-01T17:45:22Z)
Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文参考訳（メタデータ） (2021-03-12T10:10:13Z)
Unsupervised Cross-lingual Representation Learning for Speech Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文参考訳（メタデータ） (2020-06-24T18:25:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。