論文の概要: Diacritic Recognition Performance in Arabic ASR
- arxiv url: http://arxiv.org/abs/2302.14022v1
- Date: Mon, 27 Feb 2023 18:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-28 14:24:11.914632
- Title: Diacritic Recognition Performance in Arabic ASR
- Title(参考訳): アラビアASRにおける発音性能
- Authors: Hanan Aldarmaki and Ahmad Ghannam
- Abstract要約: 本稿では,アラビア語自動音声認識システムにおけるダイアクリティカルな音声認識性能について分析する。
現在の最先端のASRモデルは、その出力に完全なダイアライゼーションを生じさせない。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an analysis of diacritic recognition performance in Arabic
Automatic Speech Recognition (ASR) systems. As most existing Arabic speech
corpora do not contain all diacritical marks, which represent short vowels and
other phonetic information in Arabic script, current state-of-the-art ASR
models do not produce full diacritization in their output. Automatic text-based
diacritization has previously been employed both as a pre-processing step to
train diacritized ASR, or as a post-processing step to diacritize the resulting
ASR hypotheses. It is generally believed that input diacritization degrades ASR
performance, but no systematic evaluation of ASR diacritization performance,
independent of ASR performance, has been conducted to date. In this paper, we
attempt to experimentally clarify whether input diacritiztation indeed degrades
ASR quality, and to compare the diacritic recognition performance against
text-based diacritization as a post-processing step. We start with pre-trained
Arabic ASR models and fine-tune them on transcribed speech data with different
diacritization conditions: manual, automatic, and no diacritization. We isolate
diacritic recognition performance from the overall ASR performance using
coverage and precision metrics. We find that ASR diacritization significantly
outperforms text-based diacritization in post-processing, particularly when the
ASR model is fine-tuned with manually diacritized transcripts.
- Abstract(参考訳): 本稿では,アラビア語自動音声認識(asr)システムにおけるダイアクリティック認識性能の分析を行う。
既存のアラビア語のコーポラは、短い母音やその他の音声情報を表す全てのダイアクリティカルマークをアラビア文字に含まないため、現在のasrモデルは、その出力において完全なダイアクリティカル化を生じない。
テキストに基づく自動読取は、以前、読取されたasrを訓練するための前処理ステップと、その結果のasr仮説を読取するための後処理ステップの両方として用いられてきた。
一般に、入力ダイアクリティーゼーションはASR性能を低下させると考えられているが、ASR性能に依存しないASRダイアクリティーゼーション性能の体系的評価は行われていない。
本稿では,入力ダイアクリミゼーションがASRの品質を低下させるかどうかを実験的に明らかにし,テキストベースのダイアクリミゼーションとの比較を後処理のステップとして行おうとする。
まず、事前訓練されたアラビアASRモデルから始まり、手動、自動、そして発音なしの異なる発音条件で書き起こされた音声データを微調整する。
対象と精度の指標を用いて,ASR全体の評価からダイアクリティカル認識性能を分離する。
ASR Dicritization は後処理においてテキストベースのDicritization を著しく上回り、特に手書きのDicritized transcript で ASR モデルを微調整する場合に顕著である。
関連論文リスト
- What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations [0.0]
本稿では,OpenAI Whisper,MetaのMMS,Seamless,アセンブリAIのConformerなど,主要なASRモデルのテキスト正規化ルーチンについて検討する。
我々の研究は、現在のテキスト正規化の実践が、公正な比較のためにASR出力を標準化することを目的としている一方で、Indicスクリプトに適用した場合、根本的な欠陥があることを明らかにする。
本稿では,言語学の専門知識を生かしたテキスト正規化ルーチン開発へのシフトを提案する。
論文 参考訳(メタデータ) (2024-09-04T05:08:23Z) - Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Reexamining Racial Disparities in Automatic Speech Recognition Performance: The Role of Confounding by Provenance [7.882996636086014]
自動音声認識(ASR)モデルとその使用法は公平かつ公平であることが重要である。
この研究は、現在の最先端のニューラルネットワークベースのASRシステムの性能を調べることによって、この格差の根底にある要因を理解することを目的としている。
論文 参考訳(メタデータ) (2024-07-19T02:14:17Z) - Speech Emotion Recognition with ASR Transcripts: A Comprehensive Study on Word Error Rate and Fusion Techniques [17.166092544686553]
本研究では,3つのよく知られたコーパス上の11種類のモデルから,単語誤り率(WER)の異なるASR文字を用いた音声感情認識のベンチマークを行った。
本稿では, ASR 誤り訂正とモダリティゲート融合を統合した ASR 誤り処理フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:59:25Z) - LibriSpeech-PC: Benchmark for Evaluation of Punctuation and
Capitalization Capabilities of end-to-end ASR Models [58.790604613878216]
我々は,エンドツーエンドのASRモデルの句読点と大文字化予測能力を評価するために,LibriSpeech-PCベンチマークを導入する。
このベンチマークには、リストアされた句読点とキャピタライゼーションを備えたLibriSpeech-PCデータセット、句読点に焦点を当てたPunctuation Error Rate (PER)と呼ばれる新しい評価指標、および初期ベースラインモデルが含まれている。
論文 参考訳(メタデータ) (2023-10-04T16:23:37Z) - Boosting Punctuation Restoration with Data Generation and Reinforcement
Learning [70.26450819702728]
触覚回復は自動音声認識(ASR)における重要な課題である
テキストの句読点とASRテキストとの相違は、ASRテキストの句読点復元システムのトレーニングにおいて、テキストのユーザビリティを制限している。
本稿では,このギャップを埋めるために,話題内テキストを活用した強化学習手法と大規模事前学習型生成言語モデルの最近の進歩を提案する。
論文 参考訳(メタデータ) (2023-07-24T17:22:04Z) - RED-ACE: Robust Error Detection for ASR using Confidence Embeddings [5.4693121539705984]
ASRシステムの単語レベルの信頼度スコアをAEDの性能向上に活用することを提案する。
AEDモデルのエンコーダにASR Confidence Embeddingレイヤを追加し、信頼スコアと転写されたテキストをコンテキスト化された表現に共同でエンコードできるようにします。
論文 参考訳(メタデータ) (2022-03-14T15:13:52Z) - Contextualized Attention-based Knowledge Transfer for Spoken
Conversational Question Answering [63.72278693825945]
音声対話型質問応答 (SCQA) は複雑な対話の流れをモデル化するために機械を必要とする。
本稿では,新しい文脈型注意型蒸留手法CADNetを提案する。
Spoken-CoQAデータセット上で広範な実験を行い、本手法が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-21T15:17:18Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。