論文の概要: StyleText: A Large-Scale Dataset and Benchmark for Stylized Scene Text Inpainting
- arxiv url: http://arxiv.org/abs/2605.17309v1
- Date: Sun, 17 May 2026 08:02:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.358475
- Title: StyleText: A Large-Scale Dataset and Benchmark for Stylized Scene Text Inpainting
- Title(参考訳): StyleText: 大規模データセットとスティル化されたシーンテキストのインペインティングのためのベンチマーク
- Authors: Aleksandr Simonyan, Nipun Jindal,
- Abstract要約: StyleTextは、スタイル保存を備えたローカライズされたシーンテキストのインペイントのための大規模なデータセットとベンチマークである。
StyleTextには28,518のイメージマスクプロンプト三つ子があり、9,932のシーンファミリーにグループ化されている。
- 参考スコア(独自算出の注目度): 45.88028371034407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present StyleText, a large-scale dataset and benchmark for localized scene-text inpainting with style preservation. StyleText contains 28,518 image-mask-prompt triplets grouped into 9,932 scene families, enabling controlled evaluation of text legibility and visual consistency under shared scene context. We construct the dataset with an automated pipeline that combines LLM prompt templating, Flux-based source generation with key-value (KV) cache injection, OCR-based semantic filtering, polygon mask extraction, and mask-conditioned FluxFill augmentation. We define a reproducible evaluation protocol using normalized OCR metrics (word accuracy and character error rate) and CLIP image-image similarity with explicit preprocessing. A FluxFill+LoRA baseline trained on StyleText improves OCR accuracy substantially over initialization while maintaining scene style consistency, establishing a strong reference point for future comparisons.
- Abstract(参考訳): スタイル保存を伴う局所的なシーンテキストのインペイントのための大規模データセットとベンチマークであるStyleTextを提示する。
StyleTextには、9,932のシーンファミリーにグループ化された28,518のイメージマスクプロンプト三つ子が含まれており、共有シーンコンテキスト下でのテキストの可視性と視覚的一貫性の制御を可能にする。
我々は,LLMプロンプトテンプレート,Fluxベースのソース生成,キー値(KV)キャッシュインジェクション,OCRベースのセマンティックフィルタリング,ポリゴンマスク抽出,マスク条件のFluxFill拡張を組み合わせた自動パイプラインでデータセットを構築した。
正規化OCRメトリクス(単語精度と文字誤り率)とCLIP画像と明示的な前処理との類似性を用いて再現性評価プロトコルを定義する。
StyleTextでトレーニングされたFluxFill+LoRAベースラインは、シーンスタイルの一貫性を維持しながら初期化よりもOCRの精度を大幅に向上させ、将来の比較のための強力な基準点を確立する。
関連論文リスト
- GlyphMastero: A Glyph Encoder for High-Fidelity Scene Text Editing [23.64662356622401]
GlyphMasteroという特殊なグリフエンコーダは、ストロークレベルの精度でテキストを生成するために、潜時拡散モデルを導出するために設計されている。
本手法は,現状のシーンテキスト編集ベースラインよりも文精度が18.02%向上した。
論文 参考訳(メタデータ) (2025-05-08T03:11:58Z) - Compositional Image-Text Matching and Retrieval by Grounding Entities [1.962396488631213]
本稿では,CLIP埋め込みの学習不要なゼロショット拡張法を提案する。
我々は、オブジェクトのサブイメージの個別の埋め込みと、最先端の開語彙検出器によって局所化される関係を計算する。
結果として得られる埋め込みは、テキスト埋め込みと類似性計算に利用され、画像テキストマッチングの精度が平均1.5%向上する。
論文 参考訳(メタデータ) (2025-05-04T22:18:14Z) - ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting [8.397246652127793]
我々は OCR-Text Destylization Modeling (ODM) と呼ばれる新しい事前学習手法を提案する。
ODMは、画像中の様々なスタイルのテキストを、テキストプロンプトに基づいて一様に転送する。
本手法は,シーンテキストの検出やスポッティング作業において,現在の事前学習方法よりも性能が大幅に向上し,性能が向上する。
論文 参考訳(メタデータ) (2024-03-01T06:13:53Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - TextOCR: Towards large-scale end-to-end reasoning for arbitrary-shaped
scene text [23.04601165885908]
実画像に900kの注釈付き単語を付加した任意の形状のシーンテキストの検出と認識を行うTextOCRを提案する。
現状のテキスト認識(OCR)モデルはTextOCRではうまく動作しないことを示す。
我々はTextOCRトレーニングされたOCRモデルを使用してPixelM4Cモデルを作成し、エンドツーエンドで画像に基づいてシーンテキストベースの推論を行う。
論文 参考訳(メタデータ) (2021-05-12T07:50:42Z) - TAP: Text-Aware Pre-training for Text-VQA and Text-Caption [75.44716665758415]
テキストVQAとテキストキャプションタスクのためのテキスト認識事前学習(TAP)を提案する。
TAPは、事前トレーニングにシーンテキスト(OCRエンジンから生成される)を明示的に組み込む。
我々のアプローチは、複数のタスクで大きな利幅で芸術の状態を上回っている。
論文 参考訳(メタデータ) (2020-12-08T18:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。