Fugu-MT 論文翻訳(概要): Image preprocessing and modified adaptive thresholding for improving OCR

論文の概要: Image preprocessing and modified adaptive thresholding for improving OCR

arxiv url: http://arxiv.org/abs/2111.14075v2
Date: Tue, 30 Nov 2021 04:04:33 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-01 13:26:34.091758
Title: Image preprocessing and modified adaptive thresholding for improving OCR
Title（参考訳）: OCR改善のための画像前処理と適応しきい値調整
Authors: Rohan Lal Kshetry
Abstract要約: 本稿では,テキスト内の画素強度を最大化し,それに応じて画像のしきい値を設定する手法を提案する。得られた結果から,OCRの画像処理分野において,このアルゴリズムを効率的に適用できることが分かる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper I have proposed a method to find the major pixel intensity inside the text and thresholding an image accordingly to make it easier to be used for optical character recognition (OCR) models. In our method, instead of editing whole image, I are removing all other features except the text boundaries and the color filling them. In this approach, the grayscale intensity of the letters from the input image are used as one of thresholding parameters. The performance of the developed model is finally validated with input images, with and without image processing followed by OCR by PyTesseract. Based on the results obtained, it can be observed that this algorithm can be efficiently applied in the field of image processing for OCR.
Abstract（参考訳）: 本稿では,テキスト中の大きな画素強度を検出し,画像のしきい値化を行い,光学的文字認識(ocr)モデルへの利用を容易にする手法を提案する。本手法では,画像全体を編集する代わりに,テキスト境界や色以外のすべての特徴を除去する。本手法では,入力画像からの文字のグレースケール強度をしきい値パラメータの1つとして用いる。 PyTesseract による OCR に次いで, 画像処理を伴わない入力画像を用いて, 開発モデルの性能を検証した。得られた結果から,OCRの画像処理分野において,このアルゴリズムを効率的に適用できることが分かる。

関連論文リスト

Words as Geometric Features: Estimating Homography using Optical Character Recognition as Compressed Image Representation [6.385732495789276]
ドキュメントアライメントは、自動フォーム処理、異常検出、ワークフロー自動化など、多くの現実世界のアプリケーションにおいて重要な役割を果たす。文書アライメントの伝統的な手法は、ホモグラフのような幾何学的変換を推定するために、キーポイント、エッジ、テクスチャのような画像ベースの特徴に依存している。本稿では,光学文字認識(OCR)出力をホモグラフィー推定の特徴として活用する新しい手法を提案する。
論文参考訳（メタデータ） (2025-05-25T01:20:32Z)
TFIC: End-to-End Text-Focused Image Compression for Coding for Machines [50.86328069558113]
後続の光学文字認識(OCR)のためのテキスト固有の特徴を保持するために設計された画像圧縮システムを提案する。我々のエンコーディングプロセスはOCRモジュールに必要な時間の半分を必要としており、計算能力に制限のあるデバイスに特に適しています。
論文参考訳（メタデータ） (2025-03-25T09:36:13Z)
Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。 STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。 DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文参考訳（メタデータ） (2024-08-11T06:36:42Z)
Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval [43.47770490199544]
Composed Image Retrieval (CIR)は、画像とキャプションで構成されたクエリを使って画像を取得する複雑なタスクである。 Slerp(Spherical Linear Interpolation)を用いて画像とテキストを直接マージする新しいZS-CIR手法を提案する。また,テキストエンコーダを固定しながら画像エンコーダを微調整するText-Anchored-Tuning (TAT)を導入する。
論文参考訳（メタデータ） (2024-05-01T15:19:54Z)
Optimization of Image Processing Algorithms for Character Recognition in Cultural Typewritten Documents [0.8158530638728501]
光文字認識(OCR)における画像処理手法とパラメータチューニングの影響について検討する。この手法は多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく同定された単語数を最大化する。以上の結果から,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。
論文参考訳（メタデータ） (2023-11-27T11:44:46Z)
Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文参考訳（メタデータ） (2023-09-30T02:54:51Z)
Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。ストレージの要求が大きいため、一般ユーザからは広く採用されていない。本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-06-21T06:59:07Z)
Extending TrOCR for Text Localization-Free OCR of Full-Page Scanned Receipt Images [0.07673339435080445]
本稿では,レセプション画像中のすべての文字を順序付きシーケンス・ツー・エンドに変換するために,ローカライズフリーな文書レベルOCRモデルを提案する。具体的には、訓練済みのインスタンスレベルモデルTrOCRをランダムにトリミングした画像チャンクで微調整する。実験では64.4F1スコアと22.8%の文字誤り率を達成した。
論文参考訳（メタデータ） (2022-12-11T15:45:26Z)
Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。 CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文参考訳（メタデータ） (2022-11-01T05:48:18Z)
Levenshtein OCR [20.48454415635795]
VLT(Vision-Language Transformer)に基づく新しいシーンテキスト認識器を提案する。提案手法は,NLP領域のLevenshtein Transformerに触発されて,自然画像からテキストを自動的に書き起こす方法を提案する。
論文参考訳（メタデータ） (2022-09-08T06:46:50Z)
Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文参考訳（メタデータ） (2021-11-04T04:39:02Z)
TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models [47.48019831416665]
本稿では,事前学習した画像変換器とテキスト変換器モデル,すなわちTrOCRを用いたエンドツーエンドのテキスト認識手法を提案する。 TrOCRは単純だが効果的であり、大規模な合成データで事前訓練し、人間のラベル付きデータセットで微調整することができる。実験により、TrOCRモデルは、印刷されたテキスト認識タスクと手書きのテキスト認識タスクの両方において、現在の最先端モデルよりも優れていることが示された。
論文参考訳（メタデータ） (2021-09-21T16:01:56Z)
Unknown-box Approximation to Improve Optical Character Recognition Performance [7.805544279853116]
特定のOCRエンジン用にカスタマイズされたプリプロセッサを作成するための新しいアプローチが提示される。 2つのデータセットと2つのOCRエンジンによる実験は、提示されたプリプロセッサがOCRの精度をベースラインから最大46%向上できることを示している。
論文参考訳（メタデータ） (2021-05-17T16:09:15Z)
The Power of Triply Complementary Priors for Image Compressive Sensing [89.14144796591685]
本稿では,一対の相補的な旅先を含むLRD画像モデルを提案する。次に、画像CSのためのRDモデルに基づく新しいハイブリッド・プラグイン・アンド・プレイ・フレームワークを提案する。そこで,提案したH-based image CS問題の解法として,単純で効果的なアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-05-16T08:17:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。