論文の概要: Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach
- arxiv url: http://arxiv.org/abs/2011.14021v1
- Date: Fri, 27 Nov 2020 22:50:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 02:31:23.588404
- Title: Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach
- Title(参考訳): テキストセグメンテーションを再考する:新しいデータセットとテキスト特異的リファインメントアプローチ
- Authors: Xingqian Xu, Zhifei Zhang, Zhaowen Wang, Brian Price, Zhonghao Wang,
Humphrey Shi
- Abstract要約: テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。
本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。
TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
- 参考スコア(独自算出の注目度): 34.63444886780274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text segmentation is a prerequisite in many real-world text-related tasks,
e.g., text style transfer, and scene text removal. However, facing the lack of
high-quality datasets and dedicated investigations, this critical prerequisite
has been left as an assumption in many works, and has been largely overlooked
by current research. To bridge this gap, we proposed TextSeg, a large-scale
fine-annotated text dataset with six types of annotations: word- and
character-wise bounding polygons, masks and transcriptions. We also introduce
Text Refinement Network (TexRNet), a novel text segmentation approach that
adapts to the unique properties of text, e.g. non-convex boundary, diverse
texture, etc., which often impose burdens on traditional segmentation models.
In our TexRNet, we propose text specific network designs to address such
challenges, including key features pooling and attention-based similarity
checking. We also introduce trimap and discriminator losses that show
significant improvement on text segmentation. Extensive experiments are carried
out on both our TextSeg dataset and other existing datasets. We demonstrate
that TexRNet consistently improves text segmentation performance by nearly 2%
compared to other state-of-the-art segmentation methods. Our dataset and code
will be made available at
https://github.com/SHI-Labs/Rethinking-Text-Segmentation.
- Abstract(参考訳): テキストセグメンテーションは、テキストスタイル転送やシーンテキストの削除など、現実世界の多くのテキスト関連タスクにおいて必須条件である。
しかし、高品質なデータセットや専用の調査が欠如しているため、この重要な前提条件は多くの研究において前提として残されており、現在の研究でほとんど見落とされてきた。
このギャップを埋めるため、私たちはtextsegという、単語と文字を境界とする多角形、マスク、文字転写の6種類のアノテーションを備えた、大規模な詳細な注釈付きテキストデータセットを提案しました。
また,従来のセグメンテーションモデルに負担を課すような,非凸境界や多様なテクスチャなど,テキストのユニークな特性に適応する新たなテキストセグメンテーション手法であるtextfine network(texrnet)についても紹介する。
texrnetでは、重要な機能プールや注意に基づく類似性チェックなど、このような課題に対処するために、テキスト固有のネットワーク設計を提案します。
また,テキストセグメンテーションの大幅な改善を示すtrimapとdiscriminatorの損失についても紹介する。
TextSegデータセットと既存のデータセットの両方で大規模な実験が行われます。
texrnetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーション性能を2%近く向上させる。
データセットとコードはhttps://github.com/SHI-Labs/Rethinking-Text-Segmentationで公開されます。
関連論文リスト
- EAFormer: Scene Text Segmentation with Edge-Aware Transformers [56.15069996649572]
シーンテキストセグメンテーションは、通常、生成モデルがテキストの編集や削除を支援するために使用されるシーンイメージからテキストを抽出することを目的としている。
本稿では,特にテキストのエッジにおいて,テキストをより正確にセグメント化するためのエッジ対応変換器EAFormerを提案する。
論文 参考訳(メタデータ) (2024-07-24T06:00:33Z) - Segmenting Messy Text: Detecting Boundaries in Text Derived from
Historical Newspaper Images [0.0]
新聞の結婚発表リストを1つの発表単位に分けるという,困難なテキストセグメンテーションの課題について考察する。
多くの場合、情報は文に構造化されず、隣接するセグメントは互いに位相的に区別されない。
本稿では,このようなテキストをセグメント化するための新しいディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2023-12-20T05:17:06Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Weakly-Supervised Text Instance Segmentation [44.20745377169349]
テキスト認識とテキストセグメンテーションをブリッジすることで、弱教師付きテキストインスタンスセグメンテーションを初めて実施する。
提案手法は, ICDAR13-FST(18.95$%$改善)ベンチマークとTextSeg (17.80$%$改善)ベンチマークにおいて, 弱教師付きインスタンスセグメンテーション法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-20T03:56:47Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - All you need is a second look: Towards Tighter Arbitrary shape text
detection [80.85188469964346]
長い曲線のテキストインスタンスは、CNNの受信フィールドサイズが制限されているため、断片化されがちである。
矩形や四角形のバウンディングボックスを用いた単純な表現は、より難しい任意の形のテキストを扱う際に不足する。
textitNASKは、予測された幾何学的属性を使用して、より厳密な表現でテキストインスタンスを再構築する。
論文 参考訳(メタデータ) (2020-04-26T17:03:41Z) - DGST : Discriminator Guided Scene Text detector [11.817428636084305]
本稿では,シーンテキスト検出のセグメンテーション効果を改善するために,条件付き生成逆数ネットワークに基づく検出フレームワークを提案する。
標準データセットの実験では、提案されたDGSTが顕著なゲインをもたらし、最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-02-28T01:47:36Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。