論文の概要: Unsupervised deep learning for text line segmentation
- arxiv url: http://arxiv.org/abs/2003.08632v2
- Date: Sat, 24 Oct 2020 21:11:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 04:53:11.786808
- Title: Unsupervised deep learning for text line segmentation
- Title(参考訳): テキストライン分割のための教師なしディープラーニング
- Authors: Berat Kurar Barakat, Ahmad Droby, Rym Alasam, Boraq Madi, Irina
Rabaev, Raed Shammes and Jihad El-Sana
- Abstract要約: 一般的な方法は、テキスト行をトレースするブロブラインの画像に文書イメージを埋め込むためのディープラーニングネットワークを訓練することである。
本稿では、アノテーションを必要とせずに、文書イメージパッチの教師なし埋め込みを提案する。
本研究では,アウトレーヤが収束を損なわないことを示すとともに,テキスト行間の空間からテキスト行を識別するネットワークを学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an unsupervised deep learning method for text line segmentation
that is inspired by the relative variance between text lines and spaces among
text lines. Handwritten text line segmentation is important for the efficiency
of further processing. A common method is to train a deep learning network for
embedding the document image into an image of blob lines that are tracing the
text lines. Previous methods learned such embedding in a supervised manner,
requiring the annotation of many document images. This paper presents an
unsupervised embedding of document image patches without a need for
annotations. The number of foreground pixels over the text lines is relatively
different from the number of foreground pixels over the spaces among text
lines. Generating similar and different pairs relying on this principle
definitely leads to outliers. However, as the results show, the outliers do not
harm the convergence and the network learns to discriminate the text lines from
the spaces between text lines. Remarkably, with a challenging Arabic
handwritten text line segmentation dataset, VML-AHTE, we achieved superior
performance over the supervised methods. Additionally, the proposed method was
evaluated on the ICDAR 2017 and ICFHR 2010 handwritten text line segmentation
datasets.
- Abstract(参考訳): 本稿では,テキスト行間の空間とテキスト行間の相対的ばらつきに触発されたテキスト行分割のための教師なし深層学習手法を提案する。
手書きのテキスト行のセグメンテーションは、さらなる処理の効率化に重要である。
一般的な方法は、テキスト行をトレースするブロブラインの画像に文書イメージを埋め込むためのディープラーニングネットワークを訓練することである。
従来の手法ではこのような埋め込みを教師ありの方法で学習し、多くの文書画像の注釈を必要とする。
本稿では,アノテーションを必要とせず,文書画像パッチの教師なし埋め込みについて述べる。
テキスト線上の前景画素数は、テキスト線間の空間上の前景画素の数と相対的に異なる。
この原理に依存する類似した異なるペアを生成することは、間違いなく外れ値につながる。
しかし、結果が示すように、外れ値が収束に影響を与えず、ネットワークはテキスト行とテキスト行間の空間を区別することを学習する。
アラビア文字テキスト行分割データセットであるVML-AHTEでは,教師付き手法よりも優れた性能を示した。
提案手法は, ICDAR 2017 と ICFHR 2010 の手書きテキスト行セグメンテーションデータセットを用いて評価した。
関連論文リスト
- EAFormer: Scene Text Segmentation with Edge-Aware Transformers [56.15069996649572]
シーンテキストセグメンテーションは、通常、生成モデルがテキストの編集や削除を支援するために使用されるシーンイメージからテキストを抽出することを目的としている。
本稿では,特にテキストのエッジにおいて,テキストをより正確にセグメント化するためのエッジ対応変換器EAFormerを提案する。
論文 参考訳(メタデータ) (2024-07-24T06:00:33Z) - Segmenting Messy Text: Detecting Boundaries in Text Derived from
Historical Newspaper Images [0.0]
新聞の結婚発表リストを1つの発表単位に分けるという,困難なテキストセグメンテーションの課題について考察する。
多くの場合、情報は文に構造化されず、隣接するセグメントは互いに位相的に区別されない。
本稿では,このようなテキストをセグメント化するための新しいディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2023-12-20T05:17:06Z) - ViewCo: Discovering Text-Supervised Segmentation Masks via Multi-View
Semantic Consistency [126.88107868670767]
テキスト教師付きセマンティックセグメンテーションのためのマルチテキストbfView textbfConsistent Learning (ViewCo)を提案する。
まず,同じ入力画像の複数ビューに対する対応性を学習するためのテキスト・ツー・ビュー整合性モデリングを提案する。
また,テキスト管理の曖昧性問題に対処するために,クロスビューセグメンテーション整合性モデリングを提案する。
論文 参考訳(メタデータ) (2023-01-31T01:57:52Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Unsupervised learning of text line segmentation by differentiating
coarse patterns [0.0]
距離が粗いテキスト行パターンに類似するコンパクトユークリッド空間に文書イメージパッチを埋め込む教師なしのディープラーニング手法を提案する。
テキスト行のセグメンテーションは、埋め込み特徴ベクトルを使って標準技術を使って容易に実装できる。
本手法は,テキスト行分割データセットのいくつかの変種に対して定性的かつ定量的に評価し,その効果を実証する。
論文 参考訳(メタデータ) (2021-05-19T21:21:30Z) - Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。
自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。
このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文 参考訳(メタデータ) (2021-04-04T07:18:38Z) - Text Line Segmentation for Challenging Handwritten Document Images Using
Fully Convolutional Network [0.0]
本稿では,歴史的写本画像に対するテキストラインセグメンテーション手法を提案する。
同じテキストライン上のコンポーネントを接続するラインマスクに依存しています。
FCNは、通常の手書き文書画像のテキスト行のセグメンテーションに成功している。
論文 参考訳(メタデータ) (2021-01-20T19:51:26Z) - Text line extraction using fully convolutional network and energy
minimization [0.0]
本稿では,テキスト線検出とエネルギー最小化のための完全畳み込みネットワークを提案する。
提案手法をVML-AHTE, VML-MOC, Diva-HisDBデータセット上で評価した。
論文 参考訳(メタデータ) (2021-01-18T23:23:03Z) - Scene Text Detection with Scribble Lines [59.698806258671105]
テキスト検出のための多角形の代わりにスクリブル線でテキストをアノテートすることを提案する。
さまざまな形状のテキストの一般的なラベリング方法であり、ラベリングコストが低くなります。
実験の結果,提案手法は弱ラベル法と元のポリゴン系ラベリング法との間の性能ギャップを橋渡しすることを示した。
論文 参考訳(メタデータ) (2020-12-09T13:14:53Z) - Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。
本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。
TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文 参考訳(メタデータ) (2020-11-27T22:50:09Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。