論文の概要: Word Segmentation from Unconstrained Handwritten Bangla Document Images
using Distance Transform
- arxiv url: http://arxiv.org/abs/2009.08037v1
- Date: Thu, 17 Sep 2020 03:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 12:06:11.038027
- Title: Word Segmentation from Unconstrained Handwritten Bangla Document Images
using Distance Transform
- Title(参考訳): 距離変換を用いた手書きバングラ文書画像からの単語分割
- Authors: Pawan Kumar Singh, Shubham Sinha, Sagnik Pal Chowdhury, Ram Sarkar,
Mita Nasipuri
- Abstract要約: 本稿では,制約のないBangla手書き文書画像から直接テキストを自動分割する手法について述べる。
単語画像の外部境界の位置を求めるために,一般的な距離アルゴリズムを適用した。
提案手法は,CMATERdbデータベースから取得した50個のランダム画像に対して実験を行った。
- 参考スコア(独自算出の注目度): 34.89370782262938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Segmentation of handwritten document images into text lines and words is one
of the most significant and challenging tasks in the development of a complete
Optical Character Recognition (OCR) system. This paper addresses the automatic
segmentation of text words directly from unconstrained Bangla handwritten
document images. The popular Distance transform (DT) algorithm is applied for
locating the outer boundary of the word images. This technique is free from
generating the over-segmented words. A simple post-processing procedure is
applied to isolate the under-segmented word images, if any. The proposed
technique is tested on 50 random images taken from CMATERdb1.1.1 database.
Satisfactory result is achieved with a segmentation accuracy of 91.88% which
confirms the robustness of the proposed methodology.
- Abstract(参考訳): テキスト行と単語への手書き文書画像の分割は、完全な光学文字認識(OCR)システムの開発において、最も重要かつ困難な作業の1つである。
本稿では,未拘束のバングラ手書き文書画像からテキスト単語の自動分割について述べる。
popular distance transform (dt) アルゴリズムは、単語画像の外側境界の特定に応用されている。
この技法は過剰な単語を生成できない。
単純な後処理の手順を適用して、下記の単語イメージを分離する。
提案手法は, CMATERdb1.1.1データベースから取得した50個のランダム画像に対して実験を行った。
満足度は91.88%のセグメンテーション精度で達成され,提案手法の堅牢性を確認する。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Optimization of Image Processing Algorithms for Character Recognition in
Cultural Typewritten Documents [0.8158530638728501]
光文字認識(OCR)における画像処理手法とパラメータチューニングの影響について検討する。
この手法は多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく同定された単語数を最大化する。
以上の結果から,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-27T11:44:46Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - Learning to Generate Text-grounded Mask for Open-world Semantic
Segmentation from Only Image-Text Pairs [10.484851004093919]
我々は,任意の視覚概念をイメージに分割する学習を目的とした,オープンワールドセマンティックセマンティックセマンティックセマンティクスに取り組む。
既存のオープンワールドセグメンテーション手法は、多様な視覚概念を学習するためにコントラッシブラーニング(CL)を採用することで、目覚ましい進歩を見せている。
そこで本研究では,モデルが地域テキストアライメントを直接学習することのできる,新しいテキストグラウンド・コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:59:03Z) - Self-supervised Character-to-Character Distillation for Text Recognition [54.12490492265583]
そこで本研究では,テキスト表現学習を容易にする汎用的な拡張を可能にする,自己教師型文字-文字-文字間蒸留法CCDを提案する。
CCDは、テキスト認識の1.38%、テキストセグメンテーションの1.7%、PSNRの0.24dB、超解像の0.0321(SSIM)で、最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-11-01T05:48:18Z) - BN-HTRd: A Benchmark Dataset for Document Level Offline Bangla
Handwritten Text Recognition (HTR) and Line Segmentation [0.0]
我々は,単語,行,文書レベルのアノテーションからなるBanglaスクリプトの画像から,オフライン手書き文字認識(HTR)のための新しいデータセットを提案する。
BN-HTRdデータセットはBBC Bangla News corpusに基づいている。
私たちのデータセットには、約150の異なる著者によって作成された手書きページの788のイメージが含まれています。
論文 参考訳(メタデータ) (2022-05-29T22:56:26Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - Confronting the Constraints for Optical Character Segmentation from
Printed Bangla Text Image [0.0]
光文字認識システムは基本的に、印刷された画像を編集可能なテキストに変換し、ストレージとユーザビリティを向上させる。
完全に機能するためには、システムは事前処理やセグメンテーションといったいくつかの重要な方法を通る必要がある。
提案アルゴリズムは,スキャン画像やキャプチャ画像の理想ケースと非理想ケースの両方からキャラクタを分割することができる。
論文 参考訳(メタデータ) (2020-03-18T17:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。