論文の概要: IDPL-PFOD2: A New Large-Scale Dataset for Printed Farsi Optical
Character Recognition
- arxiv url: http://arxiv.org/abs/2312.01177v1
- Date: Sat, 2 Dec 2023 16:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 18:55:40.239165
- Title: IDPL-PFOD2: A New Large-Scale Dataset for Printed Farsi Optical
Character Recognition
- Title(参考訳): IDPL-PFOD2:Farsi光文字認識のための大規模データセット
- Authors: Fatemeh Asadi-zeydabadi, Ali Afkari-Fahandari, Amin Faraji, Elham
Shabaninia, Hossein Nezamabadi-pour
- Abstract要約: 本稿では,Farsi印刷テキスト認識に適した大規模データセットIDPL-PFOD2を提案する。
データセットは、さまざまなフォント、スタイル、サイズを備えた2003541イメージで構成されている。
- 参考スコア(独自算出の注目度): 6.780778335996319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical Character Recognition is a technique that converts document images
into searchable and editable text, making it a valuable tool for processing
scanned documents. While the Farsi language stands as a prominent and official
language in Asia, efforts to develop efficient methods for recognizing Farsi
printed text have been relatively limited. This is primarily attributed to the
languages distinctive features, such as cursive form, the resemblance between
certain alphabet characters, and the presence of numerous diacritics and dot
placement. On the other hand, given the substantial training sample
requirements of deep-based architectures for effective performance, the
development of such datasets holds paramount significance. In light of these
concerns, this paper aims to present a novel large-scale dataset, IDPL-PFOD2,
tailored for Farsi printed text recognition. The dataset comprises 2003541
images featuring a wide variety of fonts, styles, and sizes. This dataset is an
extension of the previously introduced IDPL-PFOD dataset, offering a
substantial increase in both volume and diversity. Furthermore, the datasets
effectiveness is assessed through the utilization of both CRNN-based and Vision
Transformer architectures. The CRNN-based model achieves a baseline accuracy
rate of 78.49% and a normalized edit distance of 97.72%, while the Vision
Transformer architecture attains an accuracy of 81.32% and a normalized edit
distance of 98.74%.
- Abstract(参考訳): 光文字認識は、文書画像を検索可能で編集可能なテキストに変換する技術であり、スキャンされた文書を処理するための貴重なツールである。
ファージ語はアジアの顕著で公式な言語であるが、ファージの印刷されたテキストを認識する効率的な方法を開発する努力は比較的限られている。
これは主に、カーシブ形式、特定のアルファベット文字間の類似性、多くのダイアクリティカル文字や点配置の存在など、言語特有の特徴に起因している。
一方、ディープラーニングアーキテクチャの効果的な性能に関する十分なトレーニングサンプル要件を考えると、そのようなデータセットの開発は最重要事項である。
これらの懸念を踏まえて,本論文はFarsi印刷テキスト認識に適した新しい大規模データセットIDPL-PFOD2を提案する。
データセットは、さまざまなフォント、スタイル、サイズを備えた2003541イメージで構成されている。
このデータセットは、以前導入されたIDPL-PFODデータセットの拡張であり、ボリュームと多様性の両方を大幅に向上させる。
さらに、データセットの有効性は、CRNNベースのアーキテクチャとVision Transformerアーキテクチャの両方を利用して評価される。
CRNNベースのモデルは、ベースライン精度が78.49%、正規化編集距離が97.72%、Vision Transformerアーキテクチャが81.32%、正規化編集距離が98.74%である。
関連論文リスト
- Multi-language Video Subtitle Dataset for Image-based Text Recognition [0.0]
このデータセットには、オンラインプラットフォームからソースされた24のビデオから抽出された4,224の字幕イメージが含まれている。
タイ語の子音、母音、トーンマーク、句読点、数字、ローマ字、アラビア数字など様々な文字が特徴である。
論文 参考訳(メタデータ) (2024-11-07T00:06:53Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - A Permuted Autoregressive Approach to Word-Level Recognition for Urdu Digital Text [2.2012643583422347]
本稿では,デジタルウルドゥー文字を対象とした新しい単語レベル光学文字認識(OCR)モデルを提案する。
このモデルはpermuted autoregressive sequence (PARSeq)アーキテクチャを採用し、その性能を向上させる。
このモデルは、Urduスクリプトの複雑さを捉える上で高い精度を示し、CERは0.178である。
論文 参考訳(メタデータ) (2024-08-27T14:58:13Z) - AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - Learning from Models and Data for Visual Grounding [55.21937116752679]
データ駆動学習と様々な大規模事前学習モデルからの知識伝達を組み合わせたフレームワークであるSynGroundを紹介する。
マスク注意目的を最適化することにより、トレーニング済みの視覚・言語モデルをこのデータセット上に微調整する。
得られたモデルは、既成のビジョン・アンド・ランゲージモデルの接地能力を向上する。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - Orientation-Independent Chinese Text Recognition in Scene Images [61.34060587461462]
本研究は,テキスト画像のコンテンツと方向情報を切り離すことにより,向きに依存しない視覚特徴を抽出する試みである。
具体的には,不整合コンテンツと向き情報を用いて対応する文字イメージを復元する文字画像再構成ネットワーク(CIRN)を提案する。
論文 参考訳(メタデータ) (2023-09-03T05:30:21Z) - Exploring Better Text Image Translation with Multimodal Codebook [39.12169843196739]
テキスト画像翻訳(TIT)は、画像に埋め込まれたソーステキストをターゲット翻訳に変換することを目的としている。
本研究ではまず,中国語のTITデータセットOCRMT30Kに注釈を付け,その後の研究に便宜を提供する。
そこで本研究では,画像と関連するテキストを関連付けることができるマルチモーダルコードブックを用いたTITモデルを提案する。
本稿では,テキスト機械翻訳,画像テキストアライメント,TITタスクを含む多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-27T08:41:18Z) - Towards Boosting the Accuracy of Non-Latin Scene Text Recognition [27.609596088151644]
シーンテキスト認識は、非ラテン言語よりもラテン言語の方が著しく優れている。
本稿では,英語のデータセットを非ラテン語の言語と比較することにより,低精度化の可能性について検討する。
論文 参考訳(メタデータ) (2022-01-10T06:36:43Z) - Line Segmentation from Unconstrained Handwritten Text Images using
Adaptive Approach [10.436029791699777]
手書きテキスト画像からの行分割は、多様性と未知のバリエーションのために難しい課題である。
接続されたコンポーネント座標とテキスト高さのアライメントを結合した手書きテキスト画像からのラインセグメンテーションに適応的アプローチを用いる。
提案手法は,ベースラインを持つ文書ページとプレーンページの2種類のデータセットで検証される。
論文 参考訳(メタデータ) (2021-04-18T08:52:52Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。