論文の概要: Line Segmentation from Unconstrained Handwritten Text Images using
Adaptive Approach
- arxiv url: http://arxiv.org/abs/2104.08777v1
- Date: Sun, 18 Apr 2021 08:52:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 08:30:56.159449
- Title: Line Segmentation from Unconstrained Handwritten Text Images using
Adaptive Approach
- Title(参考訳): 適応的アプローチによる未拘束手書きテキスト画像からの線分分割
- Authors: Nidhi Gupta, Wenju Liu
- Abstract要約: 手書きテキスト画像からの行分割は、多様性と未知のバリエーションのために難しい課題である。
接続されたコンポーネント座標とテキスト高さのアライメントを結合した手書きテキスト画像からのラインセグメンテーションに適応的アプローチを用いる。
提案手法は,ベースラインを持つ文書ページとプレーンページの2種類のデータセットで検証される。
- 参考スコア(独自算出の注目度): 10.436029791699777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Line segmentation from handwritten text images is one of the challenging task
due to diversity and unknown variations as undefined spaces, styles,
orientations, stroke heights, overlapping, and alignments. Though abundant
researches, there is a need of improvement to achieve robustness and higher
segmentation rates. In the present work, an adaptive approach is used for the
line segmentation from handwritten text images merging the alignment of
connected component coordinates and text height. The mathematical justification
is provided for measuring the text height respective to the image size. The
novelty of the work lies in the text height calculation dynamically. The
experiments are tested on the dataset provided by the Chinese company for the
project. The proposed scheme is tested on two different type of datasets;
document pages having base lines and plain pages. Dataset is highly complex and
consists of abundant and uncommon variations in handwriting patterns. The
performance of the proposed method is tested on our datasets as well as
benchmark datasets, namely IAM and ICDAR09 to achieve 98.01% detection rate on
average. The performance is examined on the above said datasets to observe
91.99% and 96% detection rates, respectively.
- Abstract(参考訳): 手書きのテキスト画像からのラインセグメンテーションは、未定義の空間、スタイル、向き、ストロークの高さ、重ね合わせ、アライメントなど、多様性と未知のバリエーションのために難しい課題の1つである。
豊富な研究にもかかわらず、堅牢性と高いセグメンテーション率を達成するためには改善が必要である。
本研究では,連結成分座標とテキスト高さのアライメントを結合した手書きテキスト画像からのラインセグメンテーションに適応的手法を適用した。
画像サイズに応じたテキスト高さを測定する数学的正当性を提供する。
作品の新規性はテキストの高さを動的に計算することにある。
実験は、中国企業がプロジェクトのために提供したデータセットでテストされる。
提案手法は,ベースラインを持つ文書ページとプレーンページの2種類のデータセットで検証される。
データセットは非常に複雑で、手書きパターンの多様で珍しいバリエーションで構成されている。
提案手法の性能は, ベンチマークデータセット, IAM, ICDAR09を用いて評価し, 平均98.01%の検出率を達成した。
上記のデータセットを用いて、それぞれ91.99%と96%の検知率を観測した。
関連論文リスト
- SegHist: A General Segmentation-based Framework for Chinese Historical Document Text Line Detection [10.08588082910962]
テキスト行検出は、歴史的文書分析において重要な課題である。
歴史的文書テキスト検出のための一般的な枠組み(セグヒスト)を提案する。
一般的に使われているDB++とSegHistフレームワークを統合することで、DB-SegHistを開発する。
論文 参考訳(メタデータ) (2024-06-17T11:00:04Z) - Self-supervised Scene Text Segmentation with Object-centric Layered
Representations Augmented by Text Regions [22.090074821554754]
本稿では,オブジェクト中心の表現を階層的に分離し,画像からテキストや背景に分割する自己教師付きシーンテキストセグメンテーションアルゴリズムを提案する。
いくつかの公開シーンのテキストデータセットにおいて、この手法は最先端の教師なしセグメンテーションアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-08-25T05:00:05Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - BN-HTRd: A Benchmark Dataset for Document Level Offline Bangla
Handwritten Text Recognition (HTR) and Line Segmentation [0.0]
我々は,単語,行,文書レベルのアノテーションからなるBanglaスクリプトの画像から,オフライン手書き文字認識(HTR)のための新しいデータセットを提案する。
BN-HTRdデータセットはBBC Bangla News corpusに基づいている。
私たちのデータセットには、約150の異なる著者によって作成された手書きページの788のイメージが含まれています。
論文 参考訳(メタデータ) (2022-05-29T22:56:26Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。
本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。
TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文 参考訳(メタデータ) (2020-11-27T22:50:09Z) - Using Text to Teach Image Retrieval [47.72498265721957]
ニューラルネットワークを用いて学習した画像の特徴空間をグラフとして表現するために,画像多様体の概念に基づいて構築する。
我々は、幾何学的に整列したテキストで多様体のサンプルを増補し、大量の文を使って画像について教える。
実験結果から, 結合埋め込み多様体は頑健な表現であり, 画像検索を行うためのより良い基礎となることが示唆された。
論文 参考訳(メタデータ) (2020-11-19T16:09:14Z) - DGST : Discriminator Guided Scene Text detector [11.817428636084305]
本稿では,シーンテキスト検出のセグメンテーション効果を改善するために,条件付き生成逆数ネットワークに基づく検出フレームワークを提案する。
標準データセットの実験では、提案されたDGSTが顕著なゲインをもたらし、最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-02-28T01:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。