論文の概要: HATFormer: Historic Handwritten Arabic Text Recognition with Transformers
- arxiv url: http://arxiv.org/abs/2410.02179v1
- Date: Thu, 3 Oct 2024 03:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 08:15:54.225203
- Title: HATFormer: Historic Handwritten Arabic Text Recognition with Transformers
- Title(参考訳): HATFormer: トランスフォーマーを用いた歴史的手書きアラビア文字認識
- Authors: Adrian Chan, Anupam Mijar, Mehreen Saeed, Chau-Wai Wong, Akram Khater,
- Abstract要約: アラビア文字のデータセットは英語に比べて小さく、一般化可能なアラビアHTRモデルを訓練することは困難である。
本稿では,HATFormerを提案する。HATFormerはトランスフォーマーをベースとしたエンコーダデコーダアーキテクチャで,最先端のHTRモデルに基づいている。
我々の研究は、複雑な言語固有の課題を持つ低リソース言語に英語のHTRメソッドを適用する可能性を示している。
- 参考スコア(独自算出の注目度): 6.3660090769559945
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Arabic handwritten text recognition (HTR) is challenging, especially for historical texts, due to diverse writing styles and the intrinsic features of Arabic script. Additionally, Arabic handwriting datasets are smaller compared to English ones, making it difficult to train generalizable Arabic HTR models. To address these challenges, we propose HATFormer, a transformer-based encoder-decoder architecture that builds on a state-of-the-art English HTR model. By leveraging the transformer's attention mechanism, HATFormer captures spatial contextual information to address the intrinsic challenges of Arabic script through differentiating cursive characters, decomposing visual representations, and identifying diacritics. Our customization to historical handwritten Arabic includes an image processor for effective ViT information preprocessing, a text tokenizer for compact Arabic text representation, and a training pipeline that accounts for a limited amount of historic Arabic handwriting data. HATFormer achieves a character error rate (CER) of 8.6% on the largest public historical handwritten Arabic dataset, with a 51% improvement over the best baseline in the literature. HATFormer also attains a comparable CER of 4.2% on the largest private non-historical dataset. Our work demonstrates the feasibility of adapting an English HTR method to a low-resource language with complex, language-specific challenges, contributing to advancements in document digitization, information retrieval, and cultural preservation.
- Abstract(参考訳): アラビア語の手書き文字認識(HTR)は、様々な書体スタイルとアラビア文字の本質的な特徴のために、特に歴史的テキストでは困難である。
加えて、アラビア文字のデータセットは英語よりも小さく、一般化可能なアラビアHTRモデルを訓練することは困難である。
これらの課題に対処するために,HATFormerを提案する。HATFormerはトランスフォーマーをベースとしたエンコーダデコーダアーキテクチャで,最先端のHTRモデルに基づいている。
変換器の注意機構を活用することで、HATFormerは空間的コンテキスト情報をキャプチャして、カーシブ文字の識別、視覚的表現の分解、ダイアクリティカル文字の識別によってアラビア文字の本質的な課題に対処する。
我々の歴史的手書きアラビア語へのカスタマイズには、有効なViT情報前処理のための画像処理装置、コンパクトなアラビア文字表現のためのテキストトークンー、限られた量の歴史的アラビア文字データを扱う訓練パイプラインが含まれる。
HATFormerの文字誤り率(CER)は最大8.6%で、文献で最高のベースラインよりも51%向上している。
HATFormerはまた、最大のプライベート非歴史データセットにおいて、同等の4.2%のCERを達成している。
本研究は, 複雑な言語固有の課題を伴う低リソース言語へのHTR手法の適用の可能性を示し, 文書のデジタル化, 情報検索, 文化保護の進展に寄与している。
関連論文リスト
- Gazelle: An Instruction Dataset for Arabic Writing Assistance [12.798604366250261]
アラビア文字支援のための包括的なデータセットであるGazelleを提示する。
また、アラビア文字支援ツールの強化を目的とした評価フレームワークも提供する。
私たちの調査結果は、継続的モデルトレーニングとデータセットの強化の必要性を浮き彫りにしています。
論文 参考訳(メタデータ) (2024-10-23T17:51:58Z) - Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition [18.280762424107408]
本研究はアラビア語 OCR と HWR 向けに設計された新しい基礎モデルである Qalam を紹介する。
提案手法は,HWRタスクが0.80%,OCRタスクが1.18%のワード誤り率(WER)を達成し,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-18T14:31:09Z) - Muharaf: Manuscripts of Handwritten Arabic Dataset for Cursive Text Recognition [5.28595286827031]
Manuscripts of Hand written Arabic(Muharaf)データセットは、1,600以上の歴史的な手書きページイメージからなる機械学習データセットである。
このデータセットは、手書きのテキスト認識において、最先端の技術を前進させるためにコンパイルされた。
論文 参考訳(メタデータ) (2024-06-13T23:40:34Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Beyond Arabic: Software for Perso-Arabic Script Manipulation [67.31374614549237]
ペルソ・アラビア文字を使用する言語の書き起こしシステムを操作するための有限状態トランスデューサ(FST)コンポーネントとそれに対応するユーティリティのセットを提供する。
ライブラリはまた、単純なFSTベースのロマン化と文字変換も提供する。
論文 参考訳(メタデータ) (2023-01-26T20:37:03Z) - Huruf: An Application for Arabic Handwritten Character Recognition Using
Deep Learning [0.0]
本稿では、アラビア語の文字と数字を認識するための軽量な畳み込みニューラルネットワークアーキテクチャを提案する。
提案したパイプラインは、畳み込み、プール、バッチ正規化、ドロップアウト、最後にグローバル平均レイヤの4つのレイヤを含む合計18層で構成されている。
提案したモデルはそれぞれ96.93%と99.35%の精度を達成し、これは最先端のエンドレベルアプリケーションに適した解決策となった。
論文 参考訳(メタデータ) (2022-12-16T17:39:32Z) - New Results for the Text Recognition of Arabic Maghrib{\=i} Manuscripts
-- Managing an Under-resourced Script [0.0]
アラビア文字Maghrib=iスクリプト専用のHTRモデル開発および微調整のための新しいモードオペラーディを導入・評価する。
いくつかの最先端のHTRモデルの比較は、アラビア語に特化した単語ベースのニューラルアプローチの関連性を示している。
その結果、アラビア文字処理のための新しい視点が開かれ、より一般的には、貧弱な言語処理のためのものである。
論文 参考訳(メタデータ) (2022-11-29T12:21:41Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - Graphemic Normalization of the Perso-Arabic Script [47.429213930688086]
本稿では,ペルソ・アラビア語が最良文書言語を超えて提示する課題について述べる。
自然言語処理(NLP)の状況に注目する。
ペルソ・アラビア文字ディアスポラの多言語語族8言語に対する正規化が機械翻訳および統計言語モデリングタスクに及ぼす影響を評価する。
論文 参考訳(メタデータ) (2022-10-21T21:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。