論文の概要: Text Line Segmentation for Challenging Handwritten Document Images Using
Fully Convolutional Network
- arxiv url: http://arxiv.org/abs/2101.08299v1
- Date: Wed, 20 Jan 2021 19:51:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 03:00:04.939583
- Title: Text Line Segmentation for Challenging Handwritten Document Images Using
Fully Convolutional Network
- Title(参考訳): 完全畳み込みネットワークを用いた手書き文書画像のテキスト行分割
- Authors: Berat Barakat, Ahmad Droby, Majeed Kassis and Jihad El-Sana
- Abstract要約: 本稿では,歴史的写本画像に対するテキストラインセグメンテーション手法を提案する。
同じテキストライン上のコンポーネントを接続するラインマスクに依存しています。
FCNは、通常の手書き文書画像のテキスト行のセグメンテーションに成功している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a method for text line segmentation of challenging
historical manuscript images. These manuscript images contain narrow interline
spaces with touching components, interpenetrating vowel signs and inconsistent
font types and sizes. In addition, they contain curved, multi-skewed and
multi-directed side note lines within a complex page layout. Therefore,
bounding polygon labeling would be very difficult and time consuming. Instead
we rely on line masks that connect the components on the same text line. Then
these line masks are predicted using a Fully Convolutional Network (FCN). In
the literature, FCN has been successfully used for text line segmentation of
regular handwritten document images. The present paper shows that FCN is useful
with challenging manuscript images as well. Using a new evaluation metric that
is sensitive to over segmentation as well as under segmentation, testing
results on a publicly available challenging handwritten dataset are comparable
with the results of a previous work on the same dataset.
- Abstract(参考訳): 本稿では,歴史的写本画像に対するテキストラインセグメンテーション手法を提案する。
これらの原稿画像は、触覚成分、母音記号の相互接続、フォントタイプとサイズが一致しない狭いインターライン空間を含んでいる。
さらに、複雑なページレイアウト内に、カーブ、マルチスキュー、複数方向のサイドノート行を含む。
したがって、バウンディングポリゴンラベリングは非常に困難で時間がかかります。
代わりに、同じテキストライン上のコンポーネントを接続するラインマスクに依存しています。
そして、これらラインマスクを完全畳み込みネットワーク(fcn)を用いて予測する。
文献では、FCNは通常の手書き文書画像のテキスト行のセグメンテーションに成功している。
本論文は,FCNが原稿画像の難読化にも有用であることを示す。
セグメンテーションやセグメンテーションに敏感な新しい評価指標を使用することで、公開に挑戦的な手書きデータセットのテスト結果は、同じデータセットに関する以前の作業の結果と同等になる。
- 全文 参考訳へのリンク
関連論文リスト
- FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - Language-driven Semantic Segmentation [88.21498323896475]
本稿では,言語駆動型セマンティックイメージセグメンテーションの新しいモデルLSegを提案する。
テキストエンコーダを用いて記述型入力ラベルの埋め込みを計算する。
エンコーダは、画素埋め込みを対応するセマンティッククラスのテキスト埋め込みに合わせるために、対照的な目的で訓練される。
論文 参考訳(メタデータ) (2022-01-10T18:59:10Z) - Embedding Arithmetic for Text-driven Image Transformation [48.7704684871689]
テキスト表現は、有名なアナロジーのような幾何学的規則性を示す。
最近の研究は、このセマンティックギャップを、画像とテキストをマルチモーダル空間に埋め込むことを目的としている。
SIMATデータセットを導入し,テキスト駆動画像変換の課題を評価する。
論文 参考訳(メタデータ) (2021-12-06T16:51:50Z) - LineCounter: Learning Handwritten Text Line Segmentation by Counting [37.06878615666929]
手書きテキストライン(HTLS)は文書処理の低レベルだが重要なタスクである。
我々は,HTLSのラインカウント定式化を提案し,各ピクセル位置の上位からテキスト行数をカウントする。
この定式化は、与えられた文書画像のピクセルあたりのライン番号を直接予測するエンドツーエンドのHTLSソリューションを学ぶのに役立つ。
論文 参考訳(メタデータ) (2021-05-24T14:42:54Z) - Unsupervised learning of text line segmentation by differentiating
coarse patterns [0.0]
距離が粗いテキスト行パターンに類似するコンパクトユークリッド空間に文書イメージパッチを埋め込む教師なしのディープラーニング手法を提案する。
テキスト行のセグメンテーションは、埋め込み特徴ベクトルを使って標準技術を使って容易に実装できる。
本手法は,テキスト行分割データセットのいくつかの変種に対して定性的かつ定量的に評価し,その効果を実証する。
論文 参考訳(メタデータ) (2021-05-19T21:21:30Z) - Fourier Contour Embedding for Arbitrary-Shaped Text Detection [47.737805731529455]
任意の形状のテキスト輪郭をコンパクトシグネチャとして表現する新しい手法を提案する。
FCEは,高度に湾曲した形状であっても,シーンテキストの輪郭に適合する正確かつ堅牢であることを示す。
我々のFCENetはCTW1500やTotal-Textの最先端(SOTA)手法よりも優れている。
論文 参考訳(メタデータ) (2021-04-21T10:21:57Z) - Line Segmentation from Unconstrained Handwritten Text Images using
Adaptive Approach [10.436029791699777]
手書きテキスト画像からの行分割は、多様性と未知のバリエーションのために難しい課題である。
接続されたコンポーネント座標とテキスト高さのアライメントを結合した手書きテキスト画像からのラインセグメンテーションに適応的アプローチを用いる。
提案手法は,ベースラインを持つ文書ページとプレーンページの2種類のデータセットで検証される。
論文 参考訳(メタデータ) (2021-04-18T08:52:52Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - Text line extraction using fully convolutional network and energy
minimization [0.0]
本稿では,テキスト線検出とエネルギー最小化のための完全畳み込みネットワークを提案する。
提案手法をVML-AHTE, VML-MOC, Diva-HisDBデータセット上で評価した。
論文 参考訳(メタデータ) (2021-01-18T23:23:03Z) - Scene Text Detection with Scribble Lines [59.698806258671105]
テキスト検出のための多角形の代わりにスクリブル線でテキストをアノテートすることを提案する。
さまざまな形状のテキストの一般的なラベリング方法であり、ラベリングコストが低くなります。
実験の結果,提案手法は弱ラベル法と元のポリゴン系ラベリング法との間の性能ギャップを橋渡しすることを示した。
論文 参考訳(メタデータ) (2020-12-09T13:14:53Z) - Topical Change Detection in Documents via Embeddings of Long Sequences [4.13878392637062]
テキストセグメンテーションのタスクを独立した教師付き予測タスクとして定式化する。
類似セクションの段落を微調整することで、学習した特徴がトピック情報をエンコードすることを示すことができます。
文レベルで操作する従来のアプローチとは異なり、我々は常により広いコンテキストを使用します。
論文 参考訳(メタデータ) (2020-12-07T12:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。