論文の概要: An End-to-End OCR Framework for Robust Arabic-Handwriting Recognition
using a Novel Transformers-based Model and an Innovative 270 Million-Words
Multi-Font Corpus of Classical Arabic with Diacritics
- arxiv url: http://arxiv.org/abs/2208.11484v1
- Date: Sat, 20 Aug 2022 22:21:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 12:06:39.809236
- Title: An End-to-End OCR Framework for Robust Arabic-Handwriting Recognition
using a Novel Transformers-based Model and an Innovative 270 Million-Words
Multi-Font Corpus of Classical Arabic with Diacritics
- Title(参考訳): 新しいトランスフォーマーモデルと2億7000万ワードの古典アラビア語多言語コーパスを用いたロバストなアラビア文字認識のためのエンドツーエンドOCRフレームワーク
- Authors: Aly Mostafa, Omar Mohamed, Ali Ashraf, Ahmed Elbehery, Salma Jamal,
Anas Salah, Amr S. Ghoneim
- Abstract要約: この研究は、アラビア歴史文書の光学文字認識(OCR)の開発に関する一連の研究の第2段階である。
本稿では,視覚変換器をエンコーダ,つまりBEIT,バニラ変換器をデコーダとし,特徴抽出のためのCNNを排除し,モデルの複雑さを低減したエンドツーエンドテキスト認識手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This research is the second phase in a series of investigations on developing
an Optical Character Recognition (OCR) of Arabic historical documents and
examining how different modeling procedures interact with the problem. The
first research studied the effect of Transformers on our custom-built Arabic
dataset. One of the downsides of the first research was the size of the
training data, a mere 15000 images from our 30 million images, due to lack of
resources. Also, we add an image enhancement layer, time and space
optimization, and Post-Correction layer to aid the model in predicting the
correct word for the correct context. Notably, we propose an end-to-end text
recognition approach using Vision Transformers as an encoder, namely BEIT, and
vanilla Transformer as a decoder, eliminating CNNs for feature extraction and
reducing the model's complexity. The experiments show that our end-to-end model
outperforms Convolutions Backbones. The model attained a CER of 4.46%.
- Abstract(参考訳): この研究は、アラビア歴史文書の光学文字認識(OCR)を開発し、異なるモデリング手順が問題とどのように相互作用するかを調査する一連の研究の第2段階である。
最初の研究は、トランスフォーマーが私たちのカスタム構築したアラビアデータセットに与える影響を研究した。
最初の研究の欠点の1つはトレーニングデータのサイズであり、リソース不足のため、3000万枚の画像からたった15000枚の画像しか得られなかった。
また,画像強調レイヤ,時間と空間の最適化,補正後のレイヤを追加して,正しい文脈に対する正しい単語の予測を支援する。
特に,視覚変換器をエンコーダ,つまりBEIT,バニラ変換器をデコーダとし,特徴抽出のためのCNNを排除し,モデルの複雑さを低減したエンドツーエンドテキスト認識手法を提案する。
実験の結果、私たちのエンドツーエンドモデルは、Convolutions Backboneよりも優れています。
CERは4.46%に達した。
関連論文リスト
- Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - Learning from Models and Data for Visual Grounding [55.21937116752679]
データ駆動学習と様々な大規模事前学習モデルからの知識伝達を組み合わせたフレームワークであるSynGroundを紹介する。
マスク注意目的を最適化することにより、トレーニング済みの視覚・言語モデルをこのデータセット上に微調整する。
得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Comparative study of Transformer and LSTM Network with attention
mechanism on Image Captioning [0.0]
本研究ではTransformerとLSTMをMS-COCOデータセットのアテンションブロックモデルと比較する。
注目ブロックモデルを用いたトランスフォーマーとLSTMについて,その精度について検討した。
論文 参考訳(メタデータ) (2023-03-05T11:45:53Z) - Retrieval-Augmented Transformer for Image Captioning [51.79146669195357]
我々は、kNNメモリを用いた画像キャプション手法を開発し、外部コーパスから知識を抽出して生成プロセスを支援する。
我々のアーキテクチャは、視覚的類似性に基づく知識検索と、識別可能なエンコーダと、トークンを予測するためにkNN拡張アテンション層を組み合わせる。
COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。
論文 参考訳(メタデータ) (2022-07-26T19:35:49Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - GIT: A Generative Image-to-text Transformer for Vision and Language [138.91581326369837]
我々は、画像/映像キャプションや質問応答などの視覚言語タスクを統合するために、生成画像からテキストへ変換するGITを訓練する。
われわれのモデルはTextCaps(CIDErで138.2対125.5)で初めて人間のパフォーマンスを上回った。
論文 参考訳(メタデータ) (2022-05-27T17:03:38Z) - End-to-End Transformer Based Model for Image Captioning [1.4303104706989949]
Transformerベースのモデルはイメージキャプションをひとつのステージに統合し、エンドツーエンドのトレーニングを実現する。
モデルは138.2%(シングルモデル)と141.0%(4モデルのアンサンブル)の新しい最先端性能を達成する
論文 参考訳(メタデータ) (2022-03-29T08:47:46Z) - TrOCR: Transformer-based Optical Character Recognition with Pre-trained
Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。
TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。
実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2021-09-21T16:01:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。