論文の概要: LineCounter: Learning Handwritten Text Line Segmentation by Counting
- arxiv url: http://arxiv.org/abs/2105.11307v1
- Date: Mon, 24 May 2021 14:42:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 15:09:50.881508
- Title: LineCounter: Learning Handwritten Text Line Segmentation by Counting
- Title(参考訳): LineCounter: 計数による手書きテキスト行分割学習
- Authors: Deng Li, Yue Wu, and Yicong Zhou
- Abstract要約: 手書きテキストライン(HTLS)は文書処理の低レベルだが重要なタスクである。
我々は,HTLSのラインカウント定式化を提案し,各ピクセル位置の上位からテキスト行数をカウントする。
この定式化は、与えられた文書画像のピクセルあたりのライン番号を直接予測するエンドツーエンドのHTLSソリューションを学ぶのに役立つ。
- 参考スコア(独自算出の注目度): 37.06878615666929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten Text Line Segmentation (HTLS) is a low-level but important task
for many higher-level document processing tasks like handwritten text
recognition. It is often formulated in terms of semantic segmentation or object
detection in deep learning. However, both formulations have serious
shortcomings. The former requires heavy post-processing of splitting/merging
adjacent segments, while the latter may fail on dense or curved texts. In this
paper, we propose a novel Line Counting formulation for HTLS -- that involves
counting the number of text lines from the top at every pixel location. This
formulation helps learn an end-to-end HTLS solution that directly predicts
per-pixel line number for a given document image. Furthermore, we propose a
deep neural network (DNN) model LineCounter to perform HTLS through the Line
Counting formulation. Our extensive experiments on the three public datasets
(ICDAR2013-HSC, HIT-MW, and VML-AHTE) demonstrate that LineCounter outperforms
state-of-the-art HTLS approaches. Source code is available at
https://github.com/Leedeng/Line-Counter.
- Abstract(参考訳): 手書きテキストラインセグメンテーション(HTLS)は、手書きテキスト認識のような多くの高レベルの文書処理タスクにおいて、低レベルだが重要なタスクである。
深層学習における意味的セグメンテーションや物体検出の用語でしばしば定式化される。
しかし、どちらの定式化も重大な欠点がある。
前者は、隣接するセグメントを分割/マージする重い後処理を必要とし、後者は、高密度または湾曲したテキストで失敗する。
本稿では,HTLSのラインカウント定式化を提案し,各ピクセル位置の上位からテキスト行数をカウントする。
この定式化は、与えられた文書画像のピクセルあたりのライン番号を直接予測するエンドツーエンドのHTLSソリューションを学ぶのに役立つ。
さらに,Line Countingの定式化を通じてHTLSを実行するディープニューラルネットワーク(DNN)モデルLineCounterを提案する。
今回の3つの公開データセット(ICDAR2013-HSC, HIT-MW, VML-AHTE)に関する大規模な実験は、LineCounterが最先端のHTLSアプローチより優れていることを示している。
ソースコードはhttps://github.com/leedeng/line-counterで入手できる。
関連論文リスト
- Hierarchical Text Spotter for Joint Text Spotting and Layout Analysis [52.01356859448068]
HTSは画像中のテキストを認識し、文字、単語、行、段落の4段階の階層構造を識別することができる。
HTSは、複数の単語レベルのテキストスポッティングベンチマークデータセットと幾何学的レイアウト解析タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-10-25T22:23:54Z) - DeepLSD: Line Segment Detection and Refinement with Deep Image Gradients [105.25109274550607]
ラインセグメントは、視覚タスクでますます使われています。
画像勾配に基づく従来の線検出器は非常に高速で精度が高いが、ノイズの多い画像や困難な条件では頑丈さに欠ける。
我々は、両方の世界を最大限に活用するために、伝統的なアプローチと学習されたアプローチを組み合わせることを提案する。
論文 参考訳(メタデータ) (2022-12-15T12:36:49Z) - DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text
Spotting [129.73247700864385]
DeepSoloは単純な検出トランスフォーマーのベースラインで、テキスト検出と認識を同時に行うためのExplicit Points Soloを備えた1つのデコーダを提供する。
我々は、より正確な監視信号を提供するためにテキストマッチング基準を導入し、より効率的な訓練を可能にした。
論文 参考訳(メタデータ) (2022-11-19T19:06:22Z) - BN-HTRd: A Benchmark Dataset for Document Level Offline Bangla
Handwritten Text Recognition (HTR) and Line Segmentation [0.0]
我々は,単語,行,文書レベルのアノテーションからなるBanglaスクリプトの画像から,オフライン手書き文字認識(HTR)のための新しいデータセットを提案する。
BN-HTRdデータセットはBBC Bangla News corpusに基づいている。
私たちのデータセットには、約150の異なる著者によって作成された手書きページの788のイメージが含まれています。
論文 参考訳(メタデータ) (2022-05-29T22:56:26Z) - SOLD2: Self-supervised Occlusion-aware Line Description and Detection [95.8719432775724]
単一深層ネットワークにおける回線セグメントの最初の共同検出と記述について紹介します。
我々の手法は注釈付き行ラベルを必要としないため、任意のデータセットに一般化することができる。
複数のマルチビューデータセットにおいて,従来の行検出と記述方法に対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-04-07T19:27:17Z) - Text Line Segmentation for Challenging Handwritten Document Images Using
Fully Convolutional Network [0.0]
本稿では,歴史的写本画像に対するテキストラインセグメンテーション手法を提案する。
同じテキストライン上のコンポーネントを接続するラインマスクに依存しています。
FCNは、通常の手書き文書画像のテキスト行のセグメンテーションに成功している。
論文 参考訳(メタデータ) (2021-01-20T19:51:26Z) - Text line extraction using fully convolutional network and energy
minimization [0.0]
本稿では,テキスト線検出とエネルギー最小化のための完全畳み込みネットワークを提案する。
提案手法をVML-AHTE, VML-MOC, Diva-HisDBデータセット上で評価した。
論文 参考訳(メタデータ) (2021-01-18T23:23:03Z) - OrigamiNet: Weakly-Supervised, Segmentation-Free, One-Step, Full Page
Text Recognition by learning to unfold [6.09170287691728]
セグメンテーションフリーのシングルライン認識からセグメンテーションフリーのマルチライン/フルページ認識へ進む。
我々は、CTCで訓練された完全畳み込み単行文字認識装置を拡張可能な、新しいシンプルなニューラルネットワークモジュール、textbfOrigamiNetを提案する。
IAM と ICDAR 2017 の HTR ベンチマークでは,手書き文字認識の精度が他のすべての手法を上回り,最先端の文字誤り率を実現している。
論文 参考訳(メタデータ) (2020-06-12T22:18:02Z) - Unsupervised deep learning for text line segmentation [0.0]
一般的な方法は、テキスト行をトレースするブロブラインの画像に文書イメージを埋め込むためのディープラーニングネットワークを訓練することである。
本稿では、アノテーションを必要とせずに、文書イメージパッチの教師なし埋め込みを提案する。
本研究では,アウトレーヤが収束を損なわないことを示すとともに,テキスト行間の空間からテキスト行を識別するネットワークを学習する。
論文 参考訳(メタデータ) (2020-03-19T08:57:53Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。