論文の概要: Text Line Segmentation for Challenging Handwritten Document Images Using
Fully Convolutional Network
- arxiv url: http://arxiv.org/abs/2101.08299v1
- Date: Wed, 20 Jan 2021 19:51:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 03:00:04.939583
- Title: Text Line Segmentation for Challenging Handwritten Document Images Using
Fully Convolutional Network
- Title(参考訳): 完全畳み込みネットワークを用いた手書き文書画像のテキスト行分割
- Authors: Berat Barakat, Ahmad Droby, Majeed Kassis and Jihad El-Sana
- Abstract要約: 本稿では,歴史的写本画像に対するテキストラインセグメンテーション手法を提案する。
同じテキストライン上のコンポーネントを接続するラインマスクに依存しています。
FCNは、通常の手書き文書画像のテキスト行のセグメンテーションに成功している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a method for text line segmentation of challenging
historical manuscript images. These manuscript images contain narrow interline
spaces with touching components, interpenetrating vowel signs and inconsistent
font types and sizes. In addition, they contain curved, multi-skewed and
multi-directed side note lines within a complex page layout. Therefore,
bounding polygon labeling would be very difficult and time consuming. Instead
we rely on line masks that connect the components on the same text line. Then
these line masks are predicted using a Fully Convolutional Network (FCN). In
the literature, FCN has been successfully used for text line segmentation of
regular handwritten document images. The present paper shows that FCN is useful
with challenging manuscript images as well. Using a new evaluation metric that
is sensitive to over segmentation as well as under segmentation, testing
results on a publicly available challenging handwritten dataset are comparable
with the results of a previous work on the same dataset.
- Abstract(参考訳): 本稿では,歴史的写本画像に対するテキストラインセグメンテーション手法を提案する。
これらの原稿画像は、触覚成分、母音記号の相互接続、フォントタイプとサイズが一致しない狭いインターライン空間を含んでいる。
さらに、複雑なページレイアウト内に、カーブ、マルチスキュー、複数方向のサイドノート行を含む。
したがって、バウンディングポリゴンラベリングは非常に困難で時間がかかります。
代わりに、同じテキストライン上のコンポーネントを接続するラインマスクに依存しています。
そして、これらラインマスクを完全畳み込みネットワーク(fcn)を用いて予測する。
文献では、FCNは通常の手書き文書画像のテキスト行のセグメンテーションに成功している。
本論文は,FCNが原稿画像の難読化にも有用であることを示す。
セグメンテーションやセグメンテーションに敏感な新しい評価指標を使用することで、公開に挑戦的な手書きデータセットのテスト結果は、同じデータセットに関する以前の作業の結果と同等になる。
関連論文リスト
- EAFormer: Scene Text Segmentation with Edge-Aware Transformers [56.15069996649572]
シーンテキストセグメンテーションは、通常、生成モデルがテキストの編集や削除を支援するために使用されるシーンイメージからテキストを抽出することを目的としている。
本稿では,特にテキストのエッジにおいて,テキストをより正確にセグメント化するためのエッジ対応変換器EAFormerを提案する。
論文 参考訳(メタデータ) (2024-07-24T06:00:33Z) - Segmenting Messy Text: Detecting Boundaries in Text Derived from
Historical Newspaper Images [0.0]
新聞の結婚発表リストを1つの発表単位に分けるという,困難なテキストセグメンテーションの課題について考察する。
多くの場合、情報は文に構造化されず、隣接するセグメントは互いに位相的に区別されない。
本稿では,このようなテキストをセグメント化するための新しいディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2023-12-20T05:17:06Z) - Text Augmented Spatial-aware Zero-shot Referring Image Segmentation [60.84423786769453]
テキスト拡張空間認識(TAS)ゼロショット参照画像セグメンテーションフレームワークを提案する。
TASには、例レベルのマスク抽出のためのマスク提案ネットワーク、画像テキスト相関をマイニングするためのテキスト拡張ビジュアルテキストマッチングスコア、マスク後処理のための空間が含まれている。
提案手法は,最先端のゼロショット参照画像セグメンテーション法より明らかに優れている。
論文 参考訳(メタデータ) (2023-10-27T10:52:50Z) - Text Reading Order in Uncontrolled Conditions by Sparse Graph
Segmentation [71.40119152422295]
テキストの読み出し順序を識別するための軽量でスケーラブルで一般化可能なアプローチを提案する。
モデルは言語に依存しず、多言語データセットで効果的に実行される。
モバイルデバイスを含むあらゆるプラットフォームにデプロイできるほど小さい。
論文 参考訳(メタデータ) (2023-05-04T06:21:00Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - BN-HTRd: A Benchmark Dataset for Document Level Offline Bangla
Handwritten Text Recognition (HTR) and Line Segmentation [0.0]
我々は,単語,行,文書レベルのアノテーションからなるBanglaスクリプトの画像から,オフライン手書き文字認識(HTR)のための新しいデータセットを提案する。
BN-HTRdデータセットはBBC Bangla News corpusに基づいている。
私たちのデータセットには、約150の異なる著者によって作成された手書きページの788のイメージが含まれています。
論文 参考訳(メタデータ) (2022-05-29T22:56:26Z) - Unsupervised learning of text line segmentation by differentiating
coarse patterns [0.0]
距離が粗いテキスト行パターンに類似するコンパクトユークリッド空間に文書イメージパッチを埋め込む教師なしのディープラーニング手法を提案する。
テキスト行のセグメンテーションは、埋め込み特徴ベクトルを使って標準技術を使って容易に実装できる。
本手法は,テキスト行分割データセットのいくつかの変種に対して定性的かつ定量的に評価し,その効果を実証する。
論文 参考訳(メタデータ) (2021-05-19T21:21:30Z) - Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。
本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。
TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文 参考訳(メタデータ) (2020-11-27T22:50:09Z) - Text-to-Image Generation Grounded by Fine-Grained User Attention [62.94737811887098]
Localized Narrativesは、マウストレースと組み合わせた画像の詳細な自然言語記述を備えたデータセットである。
本稿では、このグラウンド化を利用して画像を生成するシーケンシャルモデルであるTReCSを提案する。
論文 参考訳(メタデータ) (2020-11-07T13:23:31Z) - Unsupervised deep learning for text line segmentation [0.0]
一般的な方法は、テキスト行をトレースするブロブラインの画像に文書イメージを埋め込むためのディープラーニングネットワークを訓練することである。
本稿では、アノテーションを必要とせずに、文書イメージパッチの教師なし埋め込みを提案する。
本研究では,アウトレーヤが収束を損なわないことを示すとともに,テキスト行間の空間からテキスト行を識別するネットワークを学習する。
論文 参考訳(メタデータ) (2020-03-19T08:57:53Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。