論文の概要: LineCounter: Learning Handwritten Text Line Segmentation by Counting
- arxiv url: http://arxiv.org/abs/2105.11307v1
- Date: Mon, 24 May 2021 14:42:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 15:09:50.881508
- Title: LineCounter: Learning Handwritten Text Line Segmentation by Counting
- Title(参考訳): LineCounter: 計数による手書きテキスト行分割学習
- Authors: Deng Li, Yue Wu, and Yicong Zhou
- Abstract要約: 手書きテキストライン(HTLS)は文書処理の低レベルだが重要なタスクである。
我々は,HTLSのラインカウント定式化を提案し,各ピクセル位置の上位からテキスト行数をカウントする。
この定式化は、与えられた文書画像のピクセルあたりのライン番号を直接予測するエンドツーエンドのHTLSソリューションを学ぶのに役立つ。
- 参考スコア(独自算出の注目度): 37.06878615666929
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten Text Line Segmentation (HTLS) is a low-level but important task
for many higher-level document processing tasks like handwritten text
recognition. It is often formulated in terms of semantic segmentation or object
detection in deep learning. However, both formulations have serious
shortcomings. The former requires heavy post-processing of splitting/merging
adjacent segments, while the latter may fail on dense or curved texts. In this
paper, we propose a novel Line Counting formulation for HTLS -- that involves
counting the number of text lines from the top at every pixel location. This
formulation helps learn an end-to-end HTLS solution that directly predicts
per-pixel line number for a given document image. Furthermore, we propose a
deep neural network (DNN) model LineCounter to perform HTLS through the Line
Counting formulation. Our extensive experiments on the three public datasets
(ICDAR2013-HSC, HIT-MW, and VML-AHTE) demonstrate that LineCounter outperforms
state-of-the-art HTLS approaches. Source code is available at
https://github.com/Leedeng/Line-Counter.
- Abstract(参考訳): 手書きテキストラインセグメンテーション(HTLS)は、手書きテキスト認識のような多くの高レベルの文書処理タスクにおいて、低レベルだが重要なタスクである。
深層学習における意味的セグメンテーションや物体検出の用語でしばしば定式化される。
しかし、どちらの定式化も重大な欠点がある。
前者は、隣接するセグメントを分割/マージする重い後処理を必要とし、後者は、高密度または湾曲したテキストで失敗する。
本稿では,HTLSのラインカウント定式化を提案し,各ピクセル位置の上位からテキスト行数をカウントする。
この定式化は、与えられた文書画像のピクセルあたりのライン番号を直接予測するエンドツーエンドのHTLSソリューションを学ぶのに役立つ。
さらに,Line Countingの定式化を通じてHTLSを実行するディープニューラルネットワーク(DNN)モデルLineCounterを提案する。
今回の3つの公開データセット(ICDAR2013-HSC, HIT-MW, VML-AHTE)に関する大規模な実験は、LineCounterが最先端のHTLSアプローチより優れていることを示している。
ソースコードはhttps://github.com/leedeng/line-counterで入手できる。
関連論文リスト
- LESS: Label-Efficient and Single-Stage Referring 3D Segmentation [55.06002976797879]
参照3Dは、クエリの文で記述された3Dポイントクラウドから、指定されたオブジェクトのすべてのポイントをセグメントする視覚言語タスクである。
本稿では,LESSと呼ばれるレファレンス3次元パイプラインを提案する。
ScanReferデータセット上での最先端のパフォーマンスは、バイナリラベルのみを使用して、以前の3.7% mIoUの手法を上回ります。
論文 参考訳(メタデータ) (2024-10-17T07:47:41Z) - The Power of Summary-Source Alignments [62.76959473193149]
多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長性検出のサブタスクに分解される。
参照要約とそのソース文書間の対応する文のアライメントを利用して、トレーニングデータを生成する。
本稿では,よりきめ細かな提案スパンレベルで適用することで,要約ソースアライメントフレームワークを拡張することを提案する。
論文 参考訳(メタデータ) (2024-06-02T19:35:19Z) - DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text
Spotting [129.73247700864385]
DeepSoloは単純な検出トランスフォーマーのベースラインで、テキスト検出と認識を同時に行うためのExplicit Points Soloを備えた1つのデコーダを提供する。
我々は、より正確な監視信号を提供するためにテキストマッチング基準を導入し、より効率的な訓練を可能にした。
論文 参考訳(メタデータ) (2022-11-19T19:06:22Z) - BN-HTRd: A Benchmark Dataset for Document Level Offline Bangla
Handwritten Text Recognition (HTR) and Line Segmentation [0.0]
我々は,単語,行,文書レベルのアノテーションからなるBanglaスクリプトの画像から,オフライン手書き文字認識(HTR)のための新しいデータセットを提案する。
BN-HTRdデータセットはBBC Bangla News corpusに基づいている。
私たちのデータセットには、約150の異なる著者によって作成された手書きページの788のイメージが含まれています。
論文 参考訳(メタデータ) (2022-05-29T22:56:26Z) - SOLD2: Self-supervised Occlusion-aware Line Description and Detection [95.8719432775724]
単一深層ネットワークにおける回線セグメントの最初の共同検出と記述について紹介します。
我々の手法は注釈付き行ラベルを必要としないため、任意のデータセットに一般化することができる。
複数のマルチビューデータセットにおいて,従来の行検出と記述方法に対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-04-07T19:27:17Z) - Text Line Segmentation for Challenging Handwritten Document Images Using
Fully Convolutional Network [0.0]
本稿では,歴史的写本画像に対するテキストラインセグメンテーション手法を提案する。
同じテキストライン上のコンポーネントを接続するラインマスクに依存しています。
FCNは、通常の手書き文書画像のテキスト行のセグメンテーションに成功している。
論文 参考訳(メタデータ) (2021-01-20T19:51:26Z) - Text line extraction using fully convolutional network and energy
minimization [0.0]
本稿では,テキスト線検出とエネルギー最小化のための完全畳み込みネットワークを提案する。
提案手法をVML-AHTE, VML-MOC, Diva-HisDBデータセット上で評価した。
論文 参考訳(メタデータ) (2021-01-18T23:23:03Z) - OrigamiNet: Weakly-Supervised, Segmentation-Free, One-Step, Full Page
Text Recognition by learning to unfold [6.09170287691728]
セグメンテーションフリーのシングルライン認識からセグメンテーションフリーのマルチライン/フルページ認識へ進む。
我々は、CTCで訓練された完全畳み込み単行文字認識装置を拡張可能な、新しいシンプルなニューラルネットワークモジュール、textbfOrigamiNetを提案する。
IAM と ICDAR 2017 の HTR ベンチマークでは,手書き文字認識の精度が他のすべての手法を上回り,最先端の文字誤り率を実現している。
論文 参考訳(メタデータ) (2020-06-12T22:18:02Z) - Unsupervised deep learning for text line segmentation [0.0]
一般的な方法は、テキスト行をトレースするブロブラインの画像に文書イメージを埋め込むためのディープラーニングネットワークを訓練することである。
本稿では、アノテーションを必要とせずに、文書イメージパッチの教師なし埋め込みを提案する。
本研究では,アウトレーヤが収束を損なわないことを示すとともに,テキスト行間の空間からテキスト行を識別するネットワークを学習する。
論文 参考訳(メタデータ) (2020-03-19T08:57:53Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。