論文の概要: IDPL-PFOD2: A New Large-Scale Dataset for Printed Farsi Optical
Character Recognition
- arxiv url: http://arxiv.org/abs/2312.01177v1
- Date: Sat, 2 Dec 2023 16:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 18:55:40.239165
- Title: IDPL-PFOD2: A New Large-Scale Dataset for Printed Farsi Optical
Character Recognition
- Title(参考訳): IDPL-PFOD2:Farsi光文字認識のための大規模データセット
- Authors: Fatemeh Asadi-zeydabadi, Ali Afkari-Fahandari, Amin Faraji, Elham
Shabaninia, Hossein Nezamabadi-pour
- Abstract要約: 本稿では,Farsi印刷テキスト認識に適した大規模データセットIDPL-PFOD2を提案する。
データセットは、さまざまなフォント、スタイル、サイズを備えた2003541イメージで構成されている。
- 参考スコア(独自算出の注目度): 6.780778335996319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical Character Recognition is a technique that converts document images
into searchable and editable text, making it a valuable tool for processing
scanned documents. While the Farsi language stands as a prominent and official
language in Asia, efforts to develop efficient methods for recognizing Farsi
printed text have been relatively limited. This is primarily attributed to the
languages distinctive features, such as cursive form, the resemblance between
certain alphabet characters, and the presence of numerous diacritics and dot
placement. On the other hand, given the substantial training sample
requirements of deep-based architectures for effective performance, the
development of such datasets holds paramount significance. In light of these
concerns, this paper aims to present a novel large-scale dataset, IDPL-PFOD2,
tailored for Farsi printed text recognition. The dataset comprises 2003541
images featuring a wide variety of fonts, styles, and sizes. This dataset is an
extension of the previously introduced IDPL-PFOD dataset, offering a
substantial increase in both volume and diversity. Furthermore, the datasets
effectiveness is assessed through the utilization of both CRNN-based and Vision
Transformer architectures. The CRNN-based model achieves a baseline accuracy
rate of 78.49% and a normalized edit distance of 97.72%, while the Vision
Transformer architecture attains an accuracy of 81.32% and a normalized edit
distance of 98.74%.
- Abstract(参考訳): 光文字認識は、文書画像を検索可能で編集可能なテキストに変換する技術であり、スキャンされた文書を処理するための貴重なツールである。
ファージ語はアジアの顕著で公式な言語であるが、ファージの印刷されたテキストを認識する効率的な方法を開発する努力は比較的限られている。
これは主に、カーシブ形式、特定のアルファベット文字間の類似性、多くのダイアクリティカル文字や点配置の存在など、言語特有の特徴に起因している。
一方、ディープラーニングアーキテクチャの効果的な性能に関する十分なトレーニングサンプル要件を考えると、そのようなデータセットの開発は最重要事項である。
これらの懸念を踏まえて,本論文はFarsi印刷テキスト認識に適した新しい大規模データセットIDPL-PFOD2を提案する。
データセットは、さまざまなフォント、スタイル、サイズを備えた2003541イメージで構成されている。
このデータセットは、以前導入されたIDPL-PFODデータセットの拡張であり、ボリュームと多様性の両方を大幅に向上させる。
さらに、データセットの有効性は、CRNNベースのアーキテクチャとVision Transformerアーキテクチャの両方を利用して評価される。
CRNNベースのモデルは、ベースライン精度が78.49%、正規化編集距離が97.72%、Vision Transformerアーキテクチャが81.32%、正規化編集距離が98.74%である。
関連論文リスト
- Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - Exploring Better Text Image Translation with Multimodal Codebook [39.12169843196739]
テキスト画像翻訳(TIT)は、画像に埋め込まれたソーステキストをターゲット翻訳に変換することを目的としている。
本研究ではまず,中国語のTITデータセットOCRMT30Kに注釈を付け,その後の研究に便宜を提供する。
そこで本研究では,画像と関連するテキストを関連付けることができるマルチモーダルコードブックを用いたTITモデルを提案する。
本稿では,テキスト機械翻訳,画像テキストアライメント,TITタスクを含む多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-27T08:41:18Z) - Cross-modality Data Augmentation for End-to-End Sign Language
Translation [71.31075396354406]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
XmDAは、クロスモダリティ混合とクロスモダリティ知識蒸留という2つの重要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text
Retrieval [142.047662926209]
本稿では,StyleGAN2モデルの隠れセマンティック情報を明らかにすることによって,ペアデータ拡張のための新しいフレームワークを提案する。
ランダムなトークン置換によって拡張テキストを生成し、拡張テキストを潜在空間アライメントモジュールに渡す。
我々は,2つのパブリックなクロスモーダル検索データセットに対する拡張データアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-07-29T01:21:54Z) - Towards Boosting the Accuracy of Non-Latin Scene Text Recognition [27.609596088151644]
シーンテキスト認識は、非ラテン言語よりもラテン言語の方が著しく優れている。
本稿では,英語のデータセットを非ラテン語の言語と比較することにより,低精度化の可能性について検討する。
論文 参考訳(メタデータ) (2022-01-10T06:36:43Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Line Segmentation from Unconstrained Handwritten Text Images using
Adaptive Approach [10.436029791699777]
手書きテキスト画像からの行分割は、多様性と未知のバリエーションのために難しい課題である。
接続されたコンポーネント座標とテキスト高さのアライメントを結合した手書きテキスト画像からのラインセグメンテーションに適応的アプローチを用いる。
提案手法は,ベースラインを持つ文書ページとプレーンページの2種類のデータセットで検証される。
論文 参考訳(メタデータ) (2021-04-18T08:52:52Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - TLGAN: document Text Localization using Generative Adversarial Nets [2.1378501793514277]
デジタル画像からのテキストローカライゼーションは、光学的文字認識の第一ステップである。
ディープニューラルネットワークは、デジタル画像からテキストローカライゼーションを行うために使用される。
Robust Reading Challenge on Scanned Receipts OCR and Information extractのラベル付きレシートイメージは10個しかない。
TLGANはSROIEテストデータに対して99.83%の精度と99.64%のリコールを達成した。
論文 参考訳(メタデータ) (2020-10-22T09:19:13Z) - Large Scale Font Independent Urdu Text Recognition System [1.5229257192293197]
フォントの異なる画像やビデオに印刷されたUrduのテキストを確実に認識できる自動化システムは存在しない。
我々は,256フォントの大規模データセットであるQaidaと,完全なUrdu辞書を開発した。
我々はまた、84.2%の精度でウルドゥー論理を認識できる畳み込みニューラルネットワーク(CNN)に基づく分類モデルを開発した。
論文 参考訳(メタデータ) (2020-05-14T06:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。