論文の概要: A Comprehensive Gold Standard and Benchmark for Comics Text Detection
and Recognition
- arxiv url: http://arxiv.org/abs/2212.14674v1
- Date: Tue, 27 Dec 2022 12:05:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-09 01:39:04.143667
- Title: A Comprehensive Gold Standard and Benchmark for Comics Text Detection
and Recognition
- Title(参考訳): コミックテキストの検出と認識のための総合ゴールドスタンダードとベンチマーク
- Authors: G\"urkan Soykan, Deniz Yuret, Tevfik Metin Sezgin
- Abstract要約: 本研究は,COMICSデータセットにおけるパネルの光学的文字認識(OCR)データの改善に焦点を当てた。
我々は「COMICS Text+: Detection」と「COMICS Text+: Recognition」と呼ばれる西欧コミックの最初のテキスト検出と認識データセットを作成しました。
我々は,これらのデータセット上での最先端テキスト検出および認識モデルの性能を評価し,COMICSのテキストと比較して単語の精度と正規化編集距離を大幅に改善した。
- 参考スコア(独自算出の注目度): 2.1485350418225244
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study focuses on improving the optical character recognition (OCR) data
for panels in the COMICS dataset, the largest dataset containing text and
images from comic books. To do this, we developed a pipeline for OCR processing
and labeling of comic books and created the first text detection and
recognition datasets for western comics, called "COMICS Text+: Detection" and
"COMICS Text+: Recognition". We evaluated the performance of state-of-the-art
text detection and recognition models on these datasets and found significant
improvement in word accuracy and normalized edit distance compared to the text
in COMICS. We also created a new dataset called "COMICS Text+", which contains
the extracted text from the textboxes in the COMICS dataset. Using the improved
text data of COMICS Text+ in the comics processing model from resulted in
state-of-the-art performance on cloze-style tasks without changing the model
architecture. The COMICS Text+ dataset can be a valuable resource for
researchers working on tasks including text detection, recognition, and
high-level processing of comics, such as narrative understanding, character
relations, and story generation. All the data and inference instructions can be
accessed in https://github.com/gsoykan/comics_text_plus.
- Abstract(参考訳): 本研究は,漫画のテキストや画像を含む最大のデータセットであるCOMICSデータセットのパネルにおける光学文字認識(OCR)データの改善に焦点を当てた。
そこで我々は,コミックブックのOCR処理とラベル付けのためのパイプラインを開発し,「COMICS Text+: Detection」と「COMICS Text+: Recognition」と呼ばれる西洋コミックのテキスト検出と認識データセットを作成した。
我々は,これらのデータセット上での最先端テキスト検出および認識モデルの性能を評価し,COMICSのテキストと比較して単語の精度と正規化編集距離を大幅に改善した。
また、COMICSデータセット内のテキストボックスから抽出したテキストを含む「COMICS Text+」という新しいデータセットも作成した。
comics processing model における comics text+ のテキストデータの改良は、モデルアーキテクチャを変更することなく、cloze スタイルのタスクの最先端のパフォーマンスをもたらした。
COMICS Text+データセットは、テキストの検出、認識、物語の理解、キャラクターの関係、ストーリー生成など、コミックのハイレベルな処理などのタスクに取り組む研究者にとって貴重なリソースである。
すべてのデータと推論命令はhttps://github.com/gsoykan/comics_text_plusでアクセスできる。
関連論文リスト
- SegHist: A General Segmentation-based Framework for Chinese Historical Document Text Line Detection [10.08588082910962]
テキスト行検出は、歴史的文書分析において重要な課題である。
歴史的文書テキスト検出のための一般的な枠組み(セグヒスト)を提案する。
一般的に使われているDB++とSegHistフレームワークを統合することで、DB-SegHistを開発する。
論文 参考訳(メタデータ) (2024-06-17T11:00:04Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - Contextual Text Block Detection towards Scene Text Understanding [85.40898487745272]
本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
論文 参考訳(メタデータ) (2022-07-26T14:59:25Z) - SwinTextSpotter: Scene Text Spotting via Better Synergy between Text
Detection and Text Recognition [73.61592015908353]
本稿では,SwinTextSpotter と呼ばれるシーンテキストスポッティングフレームワークを提案する。
動的頭部を検出器とするトランスを用いて、2つのタスクを新しい認識変換機構で統一する。
この設計は、追加の修正モジュールも文字レベルのアノテーションも必要としない簡潔なフレームワークをもたらす。
論文 参考訳(メタデータ) (2022-03-19T01:14:42Z) - On Exploring and Improving Robustness of Scene Text Detection Models [20.15225372544634]
我々はシーンテキスト検出モデル ICDAR2015-C (IC15-C) と CTW1500-C (CTW-C) を評価した。
我々は、事前学習データ、バックボーン、機能融合モジュール、マルチスケール予測、テキストインスタンスの表現、損失関数の6つの重要なコンポーネントのロバストネス分析を行う。
本研究では,背景と前景を融合することでテキスト領域の滑らかさを破壊する,シンプルで効果的なデータベース手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T02:36:48Z) - TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped
scene text [23.04601165885908]
実画像に900kの注釈付き単語を付加した任意の形状のシーンテキストの検出と認識を行うTextOCRを提案する。
現状のテキスト認識(OCR)モデルはTextOCRではうまく動作しないことを示す。
我々はTextOCRトレーニングされたOCRモデルを使用してPixelM4Cモデルを作成し、エンドツーエンドで画像に基づいてシーンテキストベースの推論を行う。
論文 参考訳(メタデータ) (2021-05-12T07:50:42Z) - TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文 参考訳(メタデータ) (2020-12-08T18:55:21Z) - Rethinking Text Segmentation: A Novel Dataset and A Text-Specific
Refinement Approach [34.63444886780274]
テキストセグメンテーションは、現実世界のテキスト関連タスクの前提条件である。
本稿では,テキスト分割手法であるText Refinement Network (TexRNet)を紹介する。
TexRNetは、他の最先端セグメンテーション手法と比較して、テキストセグメンテーションのパフォーマンスを2%近く改善している。
論文 参考訳(メタデータ) (2020-11-27T22:50:09Z) - Text Perceptron: Towards End-to-End Arbitrary-Shaped Text Spotting [49.768327669098674]
テキストパーセプトロン(Text Perceptron)という,エンドツーエンドのトレーニング可能なテキストスポッティング手法を提案する。
まず、テキスト読解順序と境界情報を学ぶ効率的なセグメンテーションベースのテキスト検出器を用いる。
次に、検出された特徴領域を正規形態に変換するために、新しい形状変換モジュール(STM)を設計する。
論文 参考訳(メタデータ) (2020-02-17T08:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。