論文の概要: Towards End-to-End Unified Scene Text Detection and Layout Analysis
- arxiv url: http://arxiv.org/abs/2203.15143v1
- Date: Mon, 28 Mar 2022 23:35:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 09:43:35.684758
- Title: Towards End-to-End Unified Scene Text Detection and Layout Analysis
- Title(参考訳): エンド・ツー・エンド統一シーンテキスト検出とレイアウト解析に向けて
- Authors: Shangbang Long, Siyang Qin, Dmitry Panteleev, Alessandro Bissacco,
Yasuhisa Fujii, Michalis Raptis
- Abstract要約: 本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
- 参考スコア(独自算出の注目度): 60.68100769639923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene text detection and document layout analysis have long been treated as
two separate tasks in different image domains. In this paper, we bring them
together and introduce the task of unified scene text detection and layout
analysis. The first hierarchical scene text dataset is introduced to enable
this novel research task. We also propose a novel method that is able to
simultaneously detect scene text and form text clusters in a unified way.
Comprehensive experiments show that our unified model achieves better
performance than multiple well-designed baseline methods. Additionally, this
model achieves state-of-the-art results on multiple scene text detection
datasets without the need of complex post-processing. Dataset and code:
https://github.com/google-research-datasets/hiertext.
- Abstract(参考訳): シーンテキスト検出と文書レイアウト解析は、長い間、異なる画像領域における2つの別々のタスクとして扱われてきた。
本稿では,これらを組み合わせて,シーンテキストの統一検出とレイアウト分析の課題を紹介する。
この新たな研究課題を実現するために、第1階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時検出し,テキストクラスタを統一的に形成できる新しい手法を提案する。
総合実験の結果,統一モデルは複数のベースライン法よりも優れた性能を実現することがわかった。
さらに、このモデルは複雑な後処理を必要とせず、複数のシーンテキスト検出データセットで最先端の結果を得る。
データセットとコード:https://github.com/google-research-datasets/hiertext
関連論文リスト
- Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - Text Grouping Adapter: Adapting Pre-trained Text Detector for Layout Analysis [52.34110239735265]
本稿では,事前学習したテキスト検出装置のレイアウト解析を学習するためのモジュールであるText Grouping Adapter (TGA)を提案する。
我々の総合的な実験は、凍結した事前学習モデルであっても、TGAを様々な事前学習されたテキスト検出器やテキストスポッターに組み込むことで、より優れたレイアウト解析性能が得られることを示した。
論文 参考訳(メタデータ) (2024-05-13T05:48:35Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - On Exploring and Improving Robustness of Scene Text Detection Models [20.15225372544634]
我々はシーンテキスト検出モデル ICDAR2015-C (IC15-C) と CTW1500-C (CTW-C) を評価した。
我々は、事前学習データ、バックボーン、機能融合モジュール、マルチスケール予測、テキストインスタンスの表現、損失関数の6つの重要なコンポーネントのロバストネス分析を行う。
本研究では,背景と前景を融合することでテキスト領域の滑らかさを破壊する,シンプルで効果的なデータベース手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T02:36:48Z) - Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。
自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。
このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文 参考訳(メタデータ) (2021-04-04T07:18:38Z) - Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。
本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。
TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文 参考訳(メタデータ) (2020-11-27T22:50:09Z) - Scene text removal via cascaded text stroke detection and erasing [19.306751704904705]
近年の学習ベースアプローチでは,シーンテキスト削除作業の性能向上が期待できる。
そこで本研究では,テキストストロークの正確な検出に基づく新しい「エンドツーエンド」フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-19T11:05:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。