論文の概要: ASR Error Correction in Low-Resource Burmese with Alignment-Enhanced Transformers using Phonetic Features
- arxiv url: http://arxiv.org/abs/2511.21088v1
- Date: Wed, 26 Nov 2025 06:13:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.98488
- Title: ASR Error Correction in Low-Resource Burmese with Alignment-Enhanced Transformers using Phonetic Features
- Title(参考訳): 音声特徴量を用いたアライメント強化変圧器を用いた低電源ビルのASR誤り補正
- Authors: Ye Bhone Lin, Thura Aung, Ye Kyaw Thu, Thazin Myint Oo,
- Abstract要約: ビルマ語でASRの誤り訂正を行う最初の研究である。
5つのASRバックボーンを評価し,ASR誤り訂正アプローチが単語と文字レベルの精度を一貫して向上することを示す。
- 参考スコア(独自算出の注目度): 0.13999481573773073
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper investigates sequence-to-sequence Transformer models for automatic speech recognition (ASR) error correction in low-resource Burmese, focusing on different feature integration strategies including IPA and alignment information. To our knowledge, this is the first study addressing ASR error correction specifically for Burmese. We evaluate five ASR backbones and show that our ASR Error Correction (AEC) approaches consistently improve word- and character-level accuracy over baseline outputs. The proposed AEC model, combining IPA and alignment features, reduced the average WER of ASR models from 51.56 to 39.82 before augmentation (and 51.56 to 43.59 after augmentation) and improving chrF++ scores from 0.5864 to 0.627, demonstrating consistent gains over the baseline ASR outputs without AEC. Our results highlight the robustness of AEC and the importance of feature design for improving ASR outputs in low-resource settings.
- Abstract(参考訳): 本稿では、低リソースビルマにおける自動音声認識(ASR)誤り訂正のためのシーケンス・ツー・シーケンス・トランスフォーマモデルについて検討し、IPAやアライメント情報を含む様々な特徴統合戦略に着目した。
我々の知る限りでは、ビルマに特化してASRエラー修正を行う最初の研究である。
5つのASRバックボーンを評価し,ASR誤り訂正(AEC)アプローチがベースライン出力よりも単語レベルと文字レベルの精度を一貫して向上することを示す。
提案されたAECモデルは、IPAとアライメント機能を組み合わせて、ASRモデルの平均WERを拡張前の51.56から39.82に削減し(拡張後の51.56から43.59まで)、chrF++スコアを0.5864から0.627に改善し、AICなしでのASR出力に対して一貫した利得を示した。
その結果、AECの堅牢性と、低リソース環境でのASR出力を改善するための特徴設計の重要性を強調した。
関連論文リスト
- Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。
我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。
我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文 参考訳(メタデータ) (2025-10-15T08:27:16Z) - GEC-RAG: Improving Generative Error Correction via Retrieval-Augmented Generation for Automatic Speech Recognition Systems [8.669397145785942]
ペルシャ語のような低リソース領域のASR精度を向上させるために,検索型RAG(Retrieval-Augmented Generation)による生成誤差補正を提案する。
GEC-RAGは、TF-IDF(Term Frequency-Inverse Document Frequency)尺度を用いて、ASRの転写と語彙的に類似した例を検索する。
論文 参考訳(メタデータ) (2025-01-18T11:53:22Z) - Crossmodal ASR Error Correction with Discrete Speech Units [16.58209270191005]
ASR誤り訂正(AEC)に対するASR後処理手法を提案する。
我々は、事前学習と微調整の戦略を探求し、ASRドメインの不一致現象を明らかにする。
そこで本稿では,AEC品質向上のための単語埋め込みの整合・強化を目的とした,離散音声ユニットの組込みを提案する。
論文 参考訳(メタデータ) (2024-05-26T19:58:38Z) - Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-08T00:40:27Z) - Error Correction in ASR using Sequence-to-Sequence Models [32.41875780785648]
自動音声認識における後編集では、ASRシステムによって生成された共通および系統的な誤りを自動的に修正する必要がある。
本稿では,事前学習型シーケンス・ツー・シーケンス・モデルであるBARTを用いて,デノナイジングモデルとして機能することを提案する。
アクセント付き音声データによる実験結果から,ASRの誤りを効果的に修正できることが示唆された。
論文 参考訳(メタデータ) (2022-02-02T17:32:59Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - ASR Error Correction and Domain Adaptation Using Machine Translation [32.27379508770736]
機械翻訳によるASR誤り訂正のための領域適応手法を提案する。
Google ASR出力における単語誤り率の絶対的改善とBLEUスコアの4点絶対的改善を観察した。
論文 参考訳(メタデータ) (2020-03-13T20:05:38Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。