論文の概要: A Large-scale Dataset for Robust Complex Anime Scene Text Detection
- arxiv url: http://arxiv.org/abs/2510.07951v1
- Date: Thu, 09 Oct 2025 08:47:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.963635
- Title: A Large-scale Dataset for Robust Complex Anime Scene Text Detection
- Title(参考訳): ロバスト複雑アニメシーンテキスト検出のための大規模データセット
- Authors: Ziyi Dong, Yurui Zhang, Changmao Li, Naomi Rue Golding, Qing Long,
- Abstract要約: 現在のテキスト検出データセットは、主に自然または文書のシーンをターゲットにしている。
AnimeTextは、735Kイメージと4.2Mの注釈付きテキストブロックを含む大規模なデータセットである。
階層的なアノテーションと、アニメシナリオに適したハードネガティブなサンプルが特徴である。
- 参考スコア(独自算出の注目度): 5.31665838601315
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Current text detection datasets primarily target natural or document scenes, where text typically appear in regular font and shapes, monotonous colors, and orderly layouts. The text usually arranged along straight or curved lines. However, these characteristics differ significantly from anime scenes, where text is often diverse in style, irregularly arranged, and easily confused with complex visual elements such as symbols and decorative patterns. Text in anime scene also includes a large number of handwritten and stylized fonts. Motivated by this gap, we introduce AnimeText, a large-scale dataset containing 735K images and 4.2M annotated text blocks. It features hierarchical annotations and hard negative samples tailored for anime scenarios. %Cross-dataset evaluations using state-of-the-art methods demonstrate that models trained on AnimeText achieve superior performance in anime text detection tasks compared to existing datasets. To evaluate the robustness of AnimeText in complex anime scenes, we conducted cross-dataset benchmarking using state-of-the-art text detection methods. Experimental results demonstrate that models trained on AnimeText outperform those trained on existing datasets in anime scene text detection tasks. AnimeText on HuggingFace: https://huggingface.co/datasets/deepghs/AnimeText
- Abstract(参考訳): 現在のテキスト検出データセットは主に、通常フォントや形、単調な色、秩序あるレイアウトにテキストが現れる自然または文書のシーンをターゲットにしている。
テキストは通常、直線または湾曲した線に沿って配置される。
しかしこれらの特徴は、文体が多様であり、不規則に配置され、記号や装飾文様などの複雑な視覚要素と容易に混同されるアニメとは大きく異なる。
アニメシーンのテキストには、多数の手書きフォントやスタイリングフォントも含まれている。
このギャップに触発されたAnimeTextは、735Kの画像と4.2Mの注釈付きテキストブロックを含む大規模データセットである。
階層的なアノテーションと、アニメシナリオに適したハードネガティブなサンプルが特徴である。
%Cross-dataset の評価では,AnimeText でトレーニングしたモデルでは,既存のデータセットと比較して,アニメテキスト検出タスクにおいて優れたパフォーマンスが得られた。
複雑なアニメシーンにおけるAnimeTextのロバスト性を評価するために,最先端のテキスト検出手法を用いてクロスデータセット・ベンチマークを行った。
実験の結果、AnimeTextでトレーニングされたモデルは、アニメシーンのテキスト検出タスクで既存のデータセットでトレーニングされたモデルよりも優れていた。
AnimeText on HuggingFace: https://huggingface.co/datasets/deepghs/AnimeText
関連論文リスト
- KhmerST: A Low-Resource Khmer Scene Text Detection and Recognition Benchmark [1.5409800688911346]
我々は,1,544人の専門家による注釈付き画像を含む,最初のKhmerシーンテキストデータセットを紹介した。
この多様なデータセットには、平らなテキスト、起立したテキスト、照度の低いテキスト、遠くのポリゴン、部分的に不明瞭なテキストが含まれる。
論文 参考訳(メタデータ) (2024-10-23T21:04:24Z) - EAFormer: Scene Text Segmentation with Edge-Aware Transformers [56.15069996649572]
シーンテキストセグメンテーションは、通常、生成モデルがテキストの編集や削除を支援するために使用されるシーンイメージからテキストを抽出することを目的としている。
本稿では,特にテキストのエッジにおいて,テキストをより正確にセグメント化するためのエッジ対応変換器EAFormerを提案する。
論文 参考訳(メタデータ) (2024-07-24T06:00:33Z) - Dataset and Benchmark for Urdu Natural Scenes Text Detection, Recognition and Visual Question Answering [50.52792174648067]
このイニシアチブは、テキストと視覚的理解のギャップを埋めようとしている。
そこで本研究では,1000以上の自然シーン画像からなるマルチタスクUrduシーンテキストデータセットを提案する。
テキストインスタンスの細かいアノテーションを提供し、以前のデータセットの制限に対処します。
論文 参考訳(メタデータ) (2024-05-21T06:48:26Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Expressive Text-to-Image Generation with Rich Text [42.923053338525804]
フォントスタイル,サイズ,色,フットノートなどのフォーマットをサポートするリッチテキストエディタを提案する。
それぞれの単語の属性をリッチテキストから抽出し、局所的なスタイル制御、明示的なトークン再重み付け、正確な色レンダリング、詳細な領域合成を可能にする。
論文 参考訳(メタデータ) (2023-04-13T17:59:55Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Scene Text Detection with Scribble Lines [59.698806258671105]
テキスト検出のための多角形の代わりにスクリブル線でテキストをアノテートすることを提案する。
さまざまな形状のテキストの一般的なラベリング方法であり、ラベリングコストが低くなります。
実験の結果,提案手法は弱ラベル法と元のポリゴン系ラベリング法との間の性能ギャップを橋渡しすることを示した。
論文 参考訳(メタデータ) (2020-12-09T13:14:53Z) - Unconstrained Text Detection in Manga [3.04585143845864]
本研究の目的は、高度に洗練されたテキストスタイルの漫画ジャンルにおいて、ピクセルレベルで文字を識別することである。
テキスト検出の文献のほとんどは、ピクセルレベルの評価には適さないバウンディングボックスメトリクスを使用している。
これらの資源を用いて、多くのメトリクスにおいて、マンガのテキスト検出における現在の手法よりも優れた、ディープ・ネットワーク・モデルの設計と評価を行った。
論文 参考訳(メタデータ) (2020-10-07T13:28:13Z) - Unconstrained Text Detection in Manga: a New Dataset and Baseline [3.04585143845864]
本研究は,日本漫画という高度に洗練された文体で漫画ジャンルのテキストをバイナライズすることを目的としている。
ピクセルレベルでのテキストアノテーションによるマンガデータセットの欠如を克服するために、私たちは独自のものを作成します。
これらの資源を用いて、多くのメトリクスにおいて、マンガにおけるテキストバイナライゼーションの現在の手法よりも優れた、ディープ・ネットワーク・モデルの設計と評価を行った。
論文 参考訳(メタデータ) (2020-09-09T00:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。