論文の概要: Confronting the Constraints for Optical Character Segmentation from
Printed Bangla Text Image
- arxiv url: http://arxiv.org/abs/2003.08384v5
- Date: Tue, 5 Jan 2021 18:11:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 12:49:04.977969
- Title: Confronting the Constraints for Optical Character Segmentation from
Printed Bangla Text Image
- Title(参考訳): 印刷バングラのテキスト画像からの光学的文字セグメンテーションの制約について
- Authors: Abu Saleh Md. Abir, Sanjana Rahman, Samia Ellin, Maisha Farzana, Md
Hridoy Manik, Chowdhury Rafeed Rahman
- Abstract要約: 光文字認識システムは基本的に、印刷された画像を編集可能なテキストに変換し、ストレージとユーザビリティを向上させる。
完全に機能するためには、システムは事前処理やセグメンテーションといったいくつかの重要な方法を通る必要がある。
提案アルゴリズムは,スキャン画像やキャプチャ画像の理想ケースと非理想ケースの両方からキャラクタを分割することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a world of digitization, optical character recognition holds the
automation to written history. Optical character recognition system basically
converts printed images into editable texts for better storage and usability.
To be completely functional, the system needs to go through some crucial
methods such as pre-processing and segmentation. Pre-processing helps printed
data to be noise free and gets rid of skewness efficiently whereas segmentation
helps the image fragment into line, word and character precisely for better
conversion. These steps hold the door to better accuracy and consistent results
for a printed image to be ready for conversion. Our proposed algorithm is able
to segment characters both from ideal and non-ideal cases of scanned or
captured images giving a sustainable outcome. The implementation of our work is
provided here: https://cutt.ly/rgdfBIa
- Abstract(参考訳): デジタル化の世界では、光学文字認識は書き起こし履歴の自動化を保持する。
光文字認識システムは基本的に、印刷された画像を編集可能なテキストに変換する。
完全に機能するためには、前処理やセグメンテーションといった重要な手法を踏む必要がある。
事前処理は、印刷データをノイズフリーにし、スキューネスを効率的に除去するのに対して、セグメンテーションは画像の断片化を線、単語、文字に正確に変換するのに役立つ。
これらのステップは、印刷された画像が変換の準備が整うための、より正確で一貫した結果にドアを固定する。
提案アルゴリズムは,スキャン画像やキャプチャ画像の理想ケースと非理想ケースの両方からキャラクタを分割することで,持続可能な結果が得られる。
私たちの仕事の実装は以下のとおりです: https://cutt.ly/rgdfbia
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Optimization of Image Processing Algorithms for Character Recognition in
Cultural Typewritten Documents [0.8158530638728501]
光文字認識(OCR)における画像処理手法とパラメータチューニングの影響について検討する。
この手法は多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく同定された単語数を最大化する。
以上の結果から,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-27T11:44:46Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Image preprocessing and modified adaptive thresholding for improving OCR [0.0]
本稿では,テキスト内の画素強度を最大化し,それに応じて画像のしきい値を設定する手法を提案する。
得られた結果から,OCRの画像処理分野において,このアルゴリズムを効率的に適用できることが分かる。
論文 参考訳(メタデータ) (2021-11-28T08:13:20Z) - An Efficient Language-Independent Multi-Font OCR for Arabic Script [0.0]
本稿では,アラビア文字のスキャン画像を入力として取り出し,対応するデジタル文書を生成する完全アラビアOCRシステムを提案する。
また,現在最先端のセグメンテーションアルゴリズムよりも優れたフォント非依存文字アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-18T22:57:03Z) - Word Segmentation from Unconstrained Handwritten Bangla Document Images
using Distance Transform [34.89370782262938]
本稿では,制約のないBangla手書き文書画像から直接テキストを自動分割する手法について述べる。
単語画像の外部境界の位置を求めるために,一般的な距離アルゴリズムを適用した。
提案手法は,CMATERdbデータベースから取得した50個のランダム画像に対して実験を行った。
論文 参考訳(メタデータ) (2020-09-17T03:14:27Z) - IMRAM: Iterative Matching with Recurrent Attention Memory for
Cross-Modal Image-Text Retrieval [105.77562776008459]
既存の手法は、注意機構を利用して、そのような対応をきめ細かな方法で探索する。
既存の手法でこのような高度な対応を最適に捉えるのは難しいかもしれない。
本稿では,複数段階のアライメントで対応を捉えるIMRAM法を提案する。
論文 参考訳(メタデータ) (2020-03-08T12:24:41Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。