論文の概要: Unconstrained Text Detection in Manga
- arxiv url: http://arxiv.org/abs/2010.03997v1
- Date: Wed, 7 Oct 2020 13:28:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 23:47:19.227319
- Title: Unconstrained Text Detection in Manga
- Title(参考訳): マンガにおける制約なしテキスト検出
- Authors: Juli\'an Del Gobbo, Rosana Matuk Herrera
- Abstract要約: 本研究の目的は、高度に洗練されたテキストスタイルの漫画ジャンルにおいて、ピクセルレベルで文字を識別することである。
テキスト検出の文献のほとんどは、ピクセルレベルの評価には適さないバウンディングボックスメトリクスを使用している。
これらの資源を用いて、多くのメトリクスにおいて、マンガのテキスト検出における現在の手法よりも優れた、ディープ・ネットワーク・モデルの設計と評価を行った。
- 参考スコア(独自算出の注目度): 3.04585143845864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The detection and recognition of unconstrained text is an open problem in
research. Text in comic books has unusual styles that raise many challenges for
text detection. This work aims to identify text characters at a pixel level in
a comic genre with highly sophisticated text styles: Japanese manga. To
overcome the lack of a manga dataset with individual character level
annotations, we create our own. Most of the literature in text detection use
bounding box metrics, which are unsuitable for pixel-level evaluation. Thus, we
implemented special metrics to evaluate performance. Using these resources, we
designed and evaluated a deep network model, outperforming current methods for
text detection in manga in most metrics.
- Abstract(参考訳): 制約のないテキストの検出と認識は、研究のオープンな問題である。
コミックブックのテキストには、テキスト検出の多くの課題を提起する珍しいスタイルがある。
本研究の目的は、高度に洗練された文体を持つ漫画ジャンルの文字をピクセルレベルで識別することである。
個々の文字レベルのアノテーションを持つマンガデータセットの欠如を克服するために、私たちは独自のものを作成します。
テキスト検出の文献の多くは、ピクセルレベルの評価には適さない境界ボックスメトリクスを使用している。
そこで我々は,性能評価のための特別な指標を実装した。
これらの資源を用いて, 深層ネットワークモデルの設計・評価を行い, マンガにおけるテキスト検出手法の精度を比較検討した。
関連論文リスト
- KhmerST: A Low-Resource Khmer Scene Text Detection and Recognition Benchmark [1.5409800688911346]
我々は,1,544人の専門家による注釈付き画像を含む,最初のKhmerシーンテキストデータセットを紹介した。
この多様なデータセットには、平らなテキスト、起立したテキスト、照度の低いテキスト、遠くのポリゴン、部分的に不明瞭なテキストが含まれる。
論文 参考訳(メタデータ) (2024-10-23T21:04:24Z) - The Manga Whisperer: Automatically Generating Transcriptions for Comics [55.544015596503726]
我々は,パネル,テキストボックス,文字ボックスを検出可能な統一モデル Magi を提案する。
本稿では,検出したテキストボックスを読み順にソートし,対話文を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T18:59:09Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Toward Understanding WordArt: Corner-Guided Transformer for Scene Text
Recognition [63.6608759501803]
我々は芸術的テキストを3つのレベルで認識することを提案する。
コーナーポイントは、文字内の局所的な特徴の抽出を誘導するために用いられる。
第二に、文字レベルの特徴をモデル化するために文字の対照的な損失を設計し、文字分類のための特徴表現を改善する。
第3に,Transformerを用いて画像レベルのグローバルな特徴を学習し,コーナーポイントのグローバルな関係をモデル化する。
論文 参考訳(メタデータ) (2022-07-31T14:11:05Z) - Detection of Furigana Text in Images [1.77898701462905]
振仮名(ふりがな)は、日本語の音符。
これらの検出は光学文字認識(OCR)の性能向上に役立つ。
本プロジェクトは、日本の書物や漫画における振替の検出に焦点を当てている。
論文 参考訳(メタデータ) (2022-07-08T15:27:19Z) - Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution [31.88960656995447]
テキスト画像中の文字のストロークレベルの内部構造に焦点を合わせるために,Stroke-Aware Scene Text Image Super-Resolution法を提案する。
具体的には、英語の文字と数字をストロークレベルに分解するためのルールを設計し、テキスト認識器を事前訓練して、ストロークレベルのアテンションマップを位置的手がかりとして提供する。
提案手法は,TextZoomと手作業で構築した漢字データセットDegraded-IC13上で,より区別可能な画像を生成することができる。
論文 参考訳(メタデータ) (2021-12-13T15:26:10Z) - Scene Text Detection with Scribble Lines [59.698806258671105]
テキスト検出のための多角形の代わりにスクリブル線でテキストをアノテートすることを提案する。
さまざまな形状のテキストの一般的なラベリング方法であり、ラベリングコストが低くなります。
実験の結果,提案手法は弱ラベル法と元のポリゴン系ラベリング法との間の性能ギャップを橋渡しすることを示した。
論文 参考訳(メタデータ) (2020-12-09T13:14:53Z) - Unconstrained Text Detection in Manga: a New Dataset and Baseline [3.04585143845864]
本研究は,日本漫画という高度に洗練された文体で漫画ジャンルのテキストをバイナライズすることを目的としている。
ピクセルレベルでのテキストアノテーションによるマンガデータセットの欠如を克服するために、私たちは独自のものを作成します。
これらの資源を用いて、多くのメトリクスにおいて、マンガにおけるテキストバイナライゼーションの現在の手法よりも優れた、ディープ・ネットワーク・モデルの設計と評価を行った。
論文 参考訳(メタデータ) (2020-09-09T00:16:51Z) - AE TextSpotter: Learning Visual and Linguistic Representation for
Ambiguous Text Spotting [98.08853679310603]
本研究はAmbiguity Elimination Text Spotter(AE TextSpotter)という新しいテキストスポッターを提案する。
AE TextSpotterは、視覚的特徴と言語的特徴の両方を学び、テキスト検出の曖昧さを著しく低減する。
我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-08-03T08:40:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。