論文の概要: Image preprocessing and modified adaptive thresholding for improving OCR
- arxiv url: http://arxiv.org/abs/2111.14075v2
- Date: Tue, 30 Nov 2021 04:04:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 13:26:34.091758
- Title: Image preprocessing and modified adaptive thresholding for improving OCR
- Title(参考訳): OCR改善のための画像前処理と適応しきい値調整
- Authors: Rohan Lal Kshetry
- Abstract要約: 本稿では,テキスト内の画素強度を最大化し,それに応じて画像のしきい値を設定する手法を提案する。
得られた結果から,OCRの画像処理分野において,このアルゴリズムを効率的に適用できることが分かる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper I have proposed a method to find the major pixel intensity
inside the text and thresholding an image accordingly to make it easier to be
used for optical character recognition (OCR) models. In our method, instead of
editing whole image, I are removing all other features except the text
boundaries and the color filling them. In this approach, the grayscale
intensity of the letters from the input image are used as one of thresholding
parameters. The performance of the developed model is finally validated with
input images, with and without image processing followed by OCR by PyTesseract.
Based on the results obtained, it can be observed that this algorithm can be
efficiently applied in the field of image processing for OCR.
- Abstract(参考訳): 本稿では,テキスト中の大きな画素強度を検出し,画像のしきい値化を行い,光学的文字認識(ocr)モデルへの利用を容易にする手法を提案する。
本手法では,画像全体を編集する代わりに,テキスト境界や色以外のすべての特徴を除去する。
本手法では,入力画像からの文字のグレースケール強度をしきい値パラメータの1つとして用いる。
PyTesseract による OCR に次いで, 画像処理を伴わない入力画像を用いて, 開発モデルの性能を検証した。
得られた結果から,OCRの画像処理分野において,このアルゴリズムを効率的に適用できることが分かる。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval [43.47770490199544]
Composed Image Retrieval (CIR)は、画像とキャプションで構成されたクエリを使って画像を取得する複雑なタスクである。
Slerp(Spherical Linear Interpolation)を用いて画像とテキストを直接マージする新しいZS-CIR手法を提案する。
また,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。
論文 参考訳(メタデータ) (2024-05-01T15:19:54Z) - Optimization of Image Processing Algorithms for Character Recognition in
Cultural Typewritten Documents [0.8158530638728501]
光文字認識(OCR)における画像処理手法とパラメータチューニングの影響について検討する。
この手法は多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく同定された単語数を最大化する。
以上の結果から,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-27T11:44:46Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Extending TrOCR for Text Localization-Free OCR of Full-Page Scanned
Receipt Images [0.07673339435080445]
本稿では,レセプション画像中のすべての文字を順序付きシーケンス・ツー・エンドに変換するために,ローカライズフリーな文書レベルOCRモデルを提案する。
具体的には、訓練済みのインスタンスレベルモデルTrOCRをランダムにトリミングした画像チャンクで微調整する。
実験では64.4F1スコアと22.8%の文字誤り率を達成した。
論文 参考訳(メタデータ) (2022-12-11T15:45:26Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - Levenshtein OCR [20.48454415635795]
VLT(Vision-Language Transformer)に基づく新しいシーンテキスト認識器を提案する。
提案手法は,NLP領域のLevenshtein Transformerに触発されて,自然画像からテキストを自動的に書き起こす方法を提案する。
論文 参考訳(メタデータ) (2022-09-08T06:46:50Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Unknown-box Approximation to Improve Optical Character Recognition
Performance [7.805544279853116]
特定のOCRエンジン用にカスタマイズされたプリプロセッサを作成するための新しいアプローチが提示される。
2つのデータセットと2つのOCRエンジンによる実験は、提示されたプリプロセッサがOCRの精度をベースラインから最大46%向上できることを示している。
論文 参考訳(メタデータ) (2021-05-17T16:09:15Z) - The Power of Triply Complementary Priors for Image Compressive Sensing [89.14144796591685]
本稿では,一対の相補的な旅先を含むLRD画像モデルを提案する。
次に、画像CSのためのRDモデルに基づく新しいハイブリッド・プラグイン・アンド・プレイ・フレームワークを提案する。
そこで,提案したH-based image CS問題の解法として,単純で効果的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-16T08:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。