論文の概要: Breaking the Script Barrier: Enabling Automatic Alignment for PoS-based ASR Error Analysis in Non-Latin Scripts
- arxiv url: http://arxiv.org/abs/2605.28438v1
- Date: Wed, 27 May 2026 13:04:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.062913
- Title: Breaking the Script Barrier: Enabling Automatic Alignment for PoS-based ASR Error Analysis in Non-Latin Scripts
- Title(参考訳): スクリプトバリアを壊す:非ラテンスクリプトにおけるPoSベースのASRエラー解析のための自動アライメントの実現
- Authors: Prasenjit K Mudi, Dahlia Devapriya, Sheetal Kalyani,
- Abstract要約: Part-of-Speech (PoS)のようなきめ細かい分析は、ASR仮説と参照転写の正確な一致を必要とする。
既存のアライメントツールは、ラテン語以外のスクリプトで書かれた言語には信頼できないことが多い。
我々は、ASRおよびラテン文字と非ラテン文字の両方で記述された言語に適用可能な、堅牢で自動化された言語に依存しないアライメント機構を提案する。
- 参考スコア(独自算出の注目度): 11.903384718183709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR) systems are commonly evaluated using aggregate metrics such as Word Error Rate (WER), which do not capture the linguistic structure of errors. Fine-grained analysis, such as Part-of-Speech (PoS)-wise error characterization, requires accurate alignment between ASR hypotheses and reference transcriptions. However, existing alignment tools are often unreliable for languages written in non-Latin scripts. In this work, we address this gap by proposing a robust, automated, language-agnostic alignment mechanism applicable across ASR architectures and across languages written in both Latin and non-Latin scripts. This enables consistent alignment of hypotheses, references, and evaluation sequences, forming the basis for downstream linguistic analysis. Building on this, we employ standard PoS taggers to perform scalable and reproducible PoS-wise error analysis. Notably, we perform alignment and downstream ASR error analysis across three major segmented writing systems, namely, Abugida (Tamil, Hindi, Kannada), Alphabetic (English, Russian, Greek), and Abjad (Arabic). We further demonstrate how such error information can be leveraged during ASR training to improve metrics such as WER.
- Abstract(参考訳): 自動音声認識(ASR)システムは、単語誤り率(WER)のような、誤りの言語構造を捉えない集計指標を用いて、一般的に評価される。
Part-of-Speech (PoS)のようなきめ細かい分析は、ASR仮説と参照転写の正確な一致を必要とする。
しかし、既存のアライメントツールは、ラテン語以外のスクリプトで書かれた言語には信頼できないことが多い。
本研究では、ASRアーキテクチャやラテン文字と非ラテン文字の両方で記述された言語に適用可能な、堅牢で自動化された言語に依存しないアライメントメカニズムを提案する。
これにより仮説、参照、評価シーケンスの一貫性のあるアライメントが可能になり、下流言語分析の基礎を形成する。
これに基づいて、我々は標準的なPoSタグを用いて、スケーラブルで再現可能なPoSワイドエラー解析を行う。
特に, Abugida (タミル語, ヒンディー語, カナダ語), Alphabetic (英語, ロシア語, ギリシア語), Abjad (アラビア語) の3つの主要な分割書記システムでアライメントと下流のASR誤差解析を行った。
さらに、このエラー情報をASRトレーニング中にどのように活用し、WERなどのメトリクスを改善するかを示す。
関連論文リスト
- Minimum Bayes Risk Decoding for Error Span Detection in Reference-Free Automatic Machine Translation Evaluation [50.83502171176548]
Maximum a Posteriori (MAP) を用いた最新造形ESD法
生成ESDモデルに最小ベイズリスク(MBR)デコードを適用することでこの問題に対処する。
論文 参考訳(メタデータ) (2025-12-08T13:21:44Z) - What is lost in Normalization? Exploring Pitfalls in Multilingual ASR Model Evaluations [0.0]
本稿では,OpenAI Whisper,MetaのMMS,Seamless,アセンブリAIのConformerなど,主要なASRモデルのテキスト正規化ルーチンについて検討する。
我々の研究は、現在のテキスト正規化の実践が、公正な比較のためにASR出力を標準化することを目的としている一方で、Indicスクリプトに適用した場合、根本的な欠陥があることを明らかにする。
本稿では,言語学の専門知識を生かしたテキスト正規化ルーチン開発へのシフトを提案する。
論文 参考訳(メタデータ) (2024-09-04T05:08:23Z) - End-to-End Page-Level Assessment of Handwritten Text Recognition [69.55992406968495]
HTRシステムは、文書のエンドツーエンドのページレベルの書き起こしに直面している。
標準メトリクスは、現れる可能性のある不整合を考慮していない。
本稿では、転写精度とROの良さを別々に検討する2つの評価法を提案する。
論文 参考訳(メタデータ) (2023-01-14T15:43:07Z) - LM-Critic: Language Models for Unsupervised Grammatical Error Correction [128.9174409251852]
文を文法的に判断する LM-Critic の定義において,事前訓練された言語モデル (LM) の活用法を示す。
このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
論文 参考訳(メタデータ) (2021-09-14T17:06:43Z) - Improving Distinction between ASR Errors and Speech Disfluencies with
Feature Space Interpolation [0.0]
微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。
本稿では,既存のLMベースのASR誤り検出システムの改良手法を提案する。
論文 参考訳(メタデータ) (2021-08-04T02:11:37Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。