論文の概要: Text line extraction using fully convolutional network and energy
minimization
- arxiv url: http://arxiv.org/abs/2101.07370v1
- Date: Mon, 18 Jan 2021 23:23:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 06:31:44.754899
- Title: Text line extraction using fully convolutional network and energy
minimization
- Title(参考訳): 完全畳み込みネットワークによるテキスト線抽出とエネルギー最小化
- Authors: Berat Kurar Barakat, Ahmad Droby, Reem Alaasam, Boraq Madi, Irina
Rabaev, Jihad El-Sana
- Abstract要約: 本稿では,テキスト線検出とエネルギー最小化のための完全畳み込みネットワークを提案する。
提案手法をVML-AHTE, VML-MOC, Diva-HisDBデータセット上で評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text lines are important parts of handwritten document images and easier to
analyze by further applications. Despite recent progress in text line
detection, text line extraction from a handwritten document remains an unsolved
task. This paper proposes to use a fully convolutional network for text line
detection and energy minimization for text line extraction. Detected text lines
are represented by blob lines that strike through the text lines. These blob
lines assist an energy function for text line extraction. The detection stage
can locate arbitrarily oriented text lines. Furthermore, the extraction stage
is capable of finding out the pixels of text lines with various heights and
interline proximity independent of their orientations. Besides, it can finely
split the touching and overlapping text lines without an orientation
assumption. We evaluate the proposed method on VML-AHTE, VML-MOC, and
Diva-HisDB datasets. The VML-AHTE dataset contains overlapping, touching and
close text lines with rich diacritics. The VML-MOC dataset is very challenging
by its multiply oriented and skewed text lines. The Diva-HisDB dataset exhibits
distinct text line heights and touching text lines. The results demonstrate the
effectiveness of the method despite various types of challenges, yet using the
same parameters in all the experiments.
- Abstract(参考訳): テキスト行は手書き文書画像の重要な部分であり、さらなるアプリケーションにより分析が容易である。
最近のテキスト行検出の進歩にもかかわらず、手書き文書からのテキスト行抽出は未解決の作業である。
本稿では,テキストライン検出のための完全畳み込みネットワークと,テキストライン抽出のためのエネルギー最小化手法を提案する。
検出されたテキスト行は、テキスト行を貫くブロブ線で表現される。
これらのブロブ線は、テキスト線抽出のためのエネルギー関数を支援する。
検出段階は任意に向き付けられたテキスト行を特定できる。
さらに、抽出段階は、その向きによらず、さまざまな高さのテキスト行の画素と線間近接を見出すことができる。
さらに、向きを仮定することなく、タッチと重なり合うテキスト行を細かく分割することができる。
本稿では,VML-AHTE,VML-MOC,Diva-HisDBデータセットに対する提案手法の評価を行う。
VML-AHTEデータセットは、リッチなダイアクリティカルなテキスト行の重複、タッチ、クローズを含む。
VML-MOCデータセットは、マルチ指向で歪んだテキスト行によって非常に難しい。
Diva-HisDBデータセットは、テキスト行の高さとタッチ行を表示する。
その結果, 様々な課題があるにもかかわらず, 全ての実験において同じパラメータを用いた手法の有効性が示された。
関連論文リスト
- Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Contextual Text Block Detection towards Scene Text Understanding [85.40898487745272]
本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
論文 参考訳(メタデータ) (2022-07-26T14:59:25Z) - LineCounter: Learning Handwritten Text Line Segmentation by Counting [37.06878615666929]
手書きテキストライン(HTLS)は文書処理の低レベルだが重要なタスクである。
我々は,HTLSのラインカウント定式化を提案し,各ピクセル位置の上位からテキスト行数をカウントする。
この定式化は、与えられた文書画像のピクセルあたりのライン番号を直接予測するエンドツーエンドのHTLSソリューションを学ぶのに役立つ。
論文 参考訳(メタデータ) (2021-05-24T14:42:54Z) - Unsupervised learning of text line segmentation by differentiating
coarse patterns [0.0]
距離が粗いテキスト行パターンに類似するコンパクトユークリッド空間に文書イメージパッチを埋め込む教師なしのディープラーニング手法を提案する。
テキスト行のセグメンテーションは、埋め込み特徴ベクトルを使って標準技術を使って容易に実装できる。
本手法は,テキスト行分割データセットのいくつかの変種に対して定性的かつ定量的に評価し,その効果を実証する。
論文 参考訳(メタデータ) (2021-05-19T21:21:30Z) - Text Line Segmentation for Challenging Handwritten Document Images Using
Fully Convolutional Network [0.0]
本稿では,歴史的写本画像に対するテキストラインセグメンテーション手法を提案する。
同じテキストライン上のコンポーネントを接続するラインマスクに依存しています。
FCNは、通常の手書き文書画像のテキスト行のセグメンテーションに成功している。
論文 参考訳(メタデータ) (2021-01-20T19:51:26Z) - BOTD: Bold Outline Text Detector [85.33700624095181]
我々はBold Outline Text Detector(BOTD)と呼ばれる新しい1段テキスト検出器を提案する。
BOTDは、モデルの複雑さを低くして任意の形のテキストを処理できる。
3つの実世界のベンチマークによる実験結果から,BOTDの最先端性能が示された。
論文 参考訳(メタデータ) (2020-11-30T11:54:14Z) - Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。
本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。
TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文 参考訳(メタデータ) (2020-11-27T22:50:09Z) - Unsupervised deep learning for text line segmentation [0.0]
一般的な方法は、テキスト行をトレースするブロブラインの画像に文書イメージを埋め込むためのディープラーニングネットワークを訓練することである。
本稿では、アノテーションを必要とせずに、文書イメージパッチの教師なし埋め込みを提案する。
本研究では,アウトレーヤが収束を損なわないことを示すとともに,テキスト行間の空間からテキスト行を識別するネットワークを学習する。
論文 参考訳(メタデータ) (2020-03-19T08:57:53Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。