論文の概要: CER-HV: A CER-Based Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR
- arxiv url: http://arxiv.org/abs/2601.16713v1
- Date: Fri, 23 Jan 2026 12:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.685951
- Title: CER-HV: A CER-Based Human-in-the-Loop Framework for Cleaning Datasets Applied to Arabic-Script HTR
- Title(参考訳): CER-HV:アラビア文字HTRに適用されたデータセットのクリーン化のためのCERベースのHuman-in-the-Loopフレームワーク
- Authors: Sana Al-azzawi, Elisa Barney, Marcus Liwicki,
- Abstract要約: アラビア文字言語用の手書き文字認識は、ラテン文字のHTRにはまだ遅れている。
多くのデータセットでデータ品質が重要な制限要因であることが示されています。
本稿では,ラベルエラーの検出とクリーン化のためのフレームワークとしてCER-HVを提案する。
- 参考スコア(独自算出の注目度): 5.227985502946548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten text recognition (HTR) for Arabic-script languages still lags behind Latin-script HTR, despite recent advances in model architectures, datasets, and benchmarks. We show that data quality is a significant limiting factor in many published datasets and propose CER-HV (CER-based Ranking with Human Verification) as a framework to detect and clean label errors. CER-HV combines a CER-based noise detector, built on a carefully configured Convolutional Recurrent Neural Network (CRNN) with early stopping to avoid overfitting noisy samples, and a human-in-the-loop (HITL) step that verifies high-ranking samples. The framework reveals that several existing datasets contain previously underreported problems, including transcription, segmentation, orientation, and non-text content errors. These have been identified with up to 90 percent precision in the Muharaf and 80-86 percent in the PHTI datasets. We also show that our CRNN achieves state-of-the-art performance across five of the six evaluated datasets, reaching 8.45 percent Character Error Rate (CER) on KHATT (Arabic), 8.26 percent on PHTI (Pashto), 10.66 percent on Ajami, and 10.11 percent on Muharaf (Arabic), all without any data cleaning. We establish a new baseline of 11.3 percent CER on the PHTD (Persian) dataset. Applying CER-HV improves the evaluation CER by 0.3-0.6 percent on the cleaner datasets and 1.0-1.8 percent on the noisier ones. Although our experiments focus on documents written in an Arabic-script language, including Arabic, Persian, Urdu, Ajami, and Pashto, the framework is general and can be applied to other text recognition datasets.
- Abstract(参考訳): アラビア文字言語用の手書き文字認識(HTR)は、モデルアーキテクチャ、データセット、ベンチマークの進歩にもかかわらず、まだラテン文字のHTRより遅れている。
我々は、多くのデータセットにおいて、データ品質が重要な制限要因であることを示し、ラベルエラーの検出とクリーン化のためのフレームワークとしてCER-HV(CER-based Ranking with Human Verification)を提案する。
CER-HVは、慎重に構成された畳み込みリカレントニューラルネットワーク(CRNN)上に構築されたCERベースのノイズ検出器と、ノイズの過度なサンプルに適合しないように早期停止と、高レベルのサンプルを検証するHuman-in-the-loop(HITL)ステップを組み合わせる。
このフレームワークは、すでに報告されているいくつかのデータセットに、書き起こし、セグメンテーション、オリエンテーション、非テキストコンテンツエラーなど、未報告の問題が含まれていることを明らかにしている。
これらは、Muharafの90%の精度とPHTIデータセットの80-86パーセントの精度で特定されている。
また、我々のCRNNは、6つの評価データセットのうち5つの最先端のパフォーマンスを達成し、KHATT(アラビア語)のキャラクタエラーレート(CER)が8.45パーセント、PHTI(Pashto)が8.26パーセント、Ajamiが10.6%、Muharaf(アラビア語)が10.11パーセントに達した。
我々はPHTD(ペルシャ)データセットに11.3%のCERの新たなベースラインを確立する。
CER-HVの適用により、よりクリーンなデータセットで0.3-0.6%、ノイズの多いデータセットで1.0-1.8%改善される。
我々の実験はアラビア語、ペルシア語、ウルドゥー語、アジャミ語、パシュト語を含むアラビア語で書かれた文書に焦点を当てているが、このフレームワークは一般的なものであり、他のテキスト認識データセットにも適用できる。
関連論文リスト
- QARI-OCR: High-Fidelity Arabic Text Recognition through Multimodal Large Language Model Adaptation [0.8944616102795021]
本稿では、アラビア語に段階的に最適化された視覚言語モデルであるQari-OCRを紹介する。
Qari-OCRは、ワード誤り率(WER)0.0160、文字誤り率(CER)0.061、BLEUスコア0.737の新たなオープンソースステート・オブ・ザ・アートを確立している。
論文 参考訳(メタデータ) (2025-06-02T22:21:06Z) - Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding [24.9462694200992]
KITAB-Benchは、現在の評価システムのギャップを埋める包括的なアラビアOCRベンチマークである。
現代の視覚言語モデル(GPT-4o、Gemini、Qwenなど)は、従来のOCRアプローチを平均60%の文字誤り率(CER)で上回っている。
本研究はアラビア文書分析手法の改良を促進するための厳格な評価枠組みを確立する。
論文 参考訳(メタデータ) (2025-02-20T18:41:23Z) - FaMTEB: Massive Text Embedding Benchmark in Persian Language [9.204800002382042]
本稿では,Massive Text Embedding Benchmark (MTEB)上に構築されたペルシア語(Farsi)テキスト埋め込みの総合ベンチマークを提案する。
私たちのベンチマークには、7つの異なるタスクにまたがる63のデータセットが含まれています。
ペルシャ語および多言語埋め込みモデルの性能を様々なタスクで評価する。
論文 参考訳(メタデータ) (2025-02-17T09:05:21Z) - Arabic Handwritten Document OCR Solution with Binarization and Adaptive Scale Fusion Detection [1.1655046053160683]
テキスト行の正確な検出を保証するために,ラインセグメンテーションとAdaptive Scale Fusion技術から始まる完全なOCRパイプラインを提案する。
我々のシステムはアラビア多言語データセットに基づいて訓練され、7文字から10文字の単語サンプルに対して99.20%の文字認識率(CRR)と93.75%の単語認識率(WRR)を達成する。
論文 参考訳(メタデータ) (2024-12-02T15:21:09Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - ZeroSCROLLS: A Zero-Shot Benchmark for Long Text Understanding [86.08738156304224]
我々は、長いテキスト上での自然言語理解のためのゼロショットベンチマークであるZeroSCROLLSを紹介する。
SCROLLSベンチマークから6つのタスクを適応させ、新しい2つの情報拡散タスクを含む4つのデータセットを追加します。
クロードはChatGPTより優れており、GPT-4は最高スコアを得る。
論文 参考訳(メタデータ) (2023-05-23T16:15:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。