論文の概要: Distinguishing Repetition Disfluency from Morphological Reduplication in Bangla ASR Transcripts: A Novel Corpus and Benchmarking Analysis
- arxiv url: http://arxiv.org/abs/2511.13159v1
- Date: Mon, 17 Nov 2025 09:06:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.088103
- Title: Distinguishing Repetition Disfluency from Morphological Reduplication in Bangla ASR Transcripts: A Novel Corpus and Benchmarking Analysis
- Title(参考訳): バングラASR転写における形態学的再帰からの反復拡散の解消:新しいコーパスとベンチマーク解析
- Authors: Zaara Zabeen Arpa, Sadnam Sakib Apurbo, Nazia Karim Khan Oishee, Ajwad Abrar,
- Abstract要約: ノイズの多いASR転写におけるこれらの2つの現象を明瞭に区別するために,手動で注釈を付した2万列バングラコーパスを紹介した。
我々は、この新しいリソースを、最先端の多言語大言語モデル(LLM)とタスク固有のエンコーダモデルの微調整という2つのパラダイムを用いてベンチマークする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic Speech Recognition (ASR) transcripts, especially in low-resource languages like Bangla, contain a critical ambiguity: word-word repetitions can be either Repetition Disfluency (unintentional ASR error/hesitation) or Morphological Reduplication (a deliberate grammatical construct). Standard disfluency correction fails by erroneously deleting valid linguistic information. To solve this, we introduce the first publicly available, 20,000-row Bangla corpus, manually annotated to explicitly distinguish between these two phenomena in noisy ASR transcripts. We benchmark this novel resource using two paradigms: state-of-the-art multilingual Large Language Models (LLMs) and task-specific fine-tuning of encoder models. LLMs achieve competitive performance (up to 82.68\% accuracy) with few-shot prompting. However, fine-tuning proves superior, with the language-specific BanglaBERT model achieving the highest accuracy of 84.78\% and an F1 score of 0.677. This establishes a strong, linguistically-informed baseline and provides essential data for developing sophisticated, semantic-preserving text normalization systems for Bangla.
- Abstract(参考訳): 自動音声認識(ASR)の転写は、特にバングラ語のような低リソース言語において、重要な曖昧さを含んでいる:単語の繰り返しは反復拡散(意図しないASRの誤り/癒着)または形態的再帰(意図的な文法的構成)のいずれかである。
標準の拡散補正は、有効な言語情報を誤って削除することで失敗する。
そこで我々は,この2つの現象をノイズの多いASR転写において明確に区別するために,手動で注釈を付した2万個のBanglaコーパスを初めて公開した。
我々は、この新しいリソースを、最先端の多言語大言語モデル(LLM)とタスク固有のエンコーダモデルの微調整という2つのパラダイムを用いてベンチマークする。
LLMは、数発のプロンプトで競争性能(82.68\%の精度)を達成する。
しかし、細調整の方が優れており、言語固有のBanglaBERTモデルは84.78\%、F1スコアは0.677である。
これは、言語的にインフォームドされた強力なベースラインを確立し、バングラのための洗練された意味保存テキスト正規化システムの開発に不可欠なデータを提供する。
関連論文リスト
- Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。
我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。
我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文 参考訳(メタデータ) (2025-10-15T08:27:16Z) - Towards Unsupervised Speech Recognition at the Syllable-Level [95.54031547995874]
マスク付き言語モデリングに基づく音節レベルのUASRフレームワークを提案する。
我々は,従来の手法では特に難しい言語であるマンダリンを効果的に一般化する。
論文 参考訳(メタデータ) (2025-10-04T02:56:33Z) - DRES: Benchmarking LLMs for Disfluency Removal [27.083825614818135]
um"、"uh"、インタージェクション、括弧、編集されたステートメントなどの分散は、音声駆動システムにおいて永続的な課題である。
制御されたテキストレベルのベンチマークである拡散除去評価スイートは、このタスクに対して再現可能なセマンティックアッパーバウンドを確立する。
DRESは、人間の注釈付きSwitchboard transcriptの上に構築され、ASRエラーからの拡散除去と音響的変動を分離する。
論文 参考訳(メタデータ) (2025-09-24T17:08:12Z) - Restoring Rhythm: Punctuation Restoration Using Transformer Models for Bangla, a Low-Resource Language [0.0]
分岐復元は、Banglaのような低リソース言語における自動音声認識タスクに不可欠である。
本研究では,変圧器を用いたモデル,具体的にはXLM-RoBERTa-largeを用いて,不動Banglaテキストの句読点を自動的に復元する方法について検討する。
我々の最高の性能モデルは、α = 0.20%の増進係数で訓練され、Newsテストセットで97.1%の精度を達成する。
その結果、参照とASRの書き起こしに対する強い一般化が示され、実世界のノイズの多いシナリオにおけるモデルの有効性が示される。
論文 参考訳(メタデータ) (2025-07-24T14:33:13Z) - Aligning ASR Evaluation with Human and LLM Judgments: Intelligibility Metrics Using Phonetic, Semantic, and NLI Approaches [28.79400870481616]
1)既存のメトリクスは知性を十分に反映していない、(2)LSMはASR出力を洗練できるが、ASR書き起こしの修正の有効性は過小評価されている。
本稿では,自然言語推論(NLI)スコア,意味的類似性,音韻的類似性を組み合わせた新しいメトリクスを提案する。
我々のASR評価基準は,音声アクセシビリティプロジェクトデータにおける人間の判断と0.890の相関を達成し,従来の手法を超越し,誤りに基づく尺度よりもインテリジェンスを優先する必要性を強調した。
論文 参考訳(メタデータ) (2025-06-19T18:21:19Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。