論文の概要: SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild
- arxiv url: http://arxiv.org/abs/2501.02962v1
- Date: Mon, 06 Jan 2025 12:09:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:06:59.853405
- Title: SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild
- Title(参考訳): SceneVTG++: 野生で制御可能な多言語ビジュアルテキスト生成
- Authors: Jiawei Liu, Yuanzhi Zhu, Feiyu Gao, Zhibo Yang, Peng Wang, Junyang Lin, Xinggang Wang, Wenyu Liu,
- Abstract要約: 自然景観画像のテキストは、以下の4つの重要な基準を満たす必要がある。
忠実さ:生成されたテキストは写真と同じくらいリアルに表示されるべきである。
推論可能性: テキストは適切なキャリア領域で生成されるべきである。
ユーティリティ: 生成されたテキストは、自然なシーンOCRタスクのトレーニングを容易にする。
- 参考スコア(独自算出の注目度): 55.619708995575785
- License:
- Abstract: Generating visual text in natural scene images is a challenging task with many unsolved problems. Different from generating text on artificially designed images (such as posters, covers, cartoons, etc.), the text in natural scene images needs to meet the following four key criteria: (1) Fidelity: the generated text should appear as realistic as a photograph and be completely accurate, with no errors in any of the strokes. (2) Reasonability: the text should be generated on reasonable carrier areas (such as boards, signs, walls, etc.), and the generated text content should also be relevant to the scene. (3) Utility: the generated text can facilitate to the training of natural scene OCR (Optical Character Recognition) tasks. (4) Controllability: The attribute of the text (such as font and color) should be controllable as needed.In this paper, we propose a two stage method, SceneVTG++, which simultaneously satisfies the four aspects mentioned above. SceneVTG++ consists of a Text Layout and Content Generator (TLCG) and a Controllable Local Text Diffusion (CLTD). The former utilizes the world knowledge of multi modal large language models to find reasonable text areas and recommend text content according to the nature scene background images, while the latter generates controllable multilingual text based on the diffusion model. Through extensive experiments, we respectively verified the effectiveness of TLCG and CLTD, and demonstrated the state-of-the-art text generation performance of SceneVTG++. In addition, the generated images have superior utility in OCR tasks like text detection and text recognition. Codes and datasets will be available.
- Abstract(参考訳): 自然シーン画像における視覚テキストの生成は多くの未解決問題において難しい課題である。
人工的にデザインされた画像(ポスター、表紙、漫画など)にテキストを生成するのと異なり、自然シーン画像のテキストは以下の4つの重要な基準を満たす必要がある。
2) 関連性: 適切なキャリア領域(ボード、標識、壁など)でテキストを生成すべきであり、生成されたテキスト内容もシーンに関連付けるべきである。
(3)実用性: 生成されたテキストは、OCR(Optical Character Recognition)タスクの訓練を容易にする。
(4) 可制御性: テキストの属性(フォントや色など)は必要に応じて制御可能でなければならない。この記事では,上記の4つの側面を同時に満足する2段階のSceneVTG++を提案する。
SceneVTG++ は Text Layout and Content Generator (TLCG) と Controllable Local Text Diffusion (CLTD) で構成されている。
前者はマルチモーダルな大言語モデルの世界的知識を利用して、適切なテキスト領域を見つけ出し、自然シーンの背景画像に従ってテキストコンテンツを推奨し、後者は拡散モデルに基づいて制御可能な多言語テキストを生成する。
広範な実験により,TLCGとCLTDの有効性を検証し,SceneVTG++の最先端テキスト生成性能を実証した。
さらに、生成された画像は、テキスト検出やテキスト認識といったOCRタスクにおいて優れたユーティリティを持つ。
コードとデータセットが利用可能になる。
関連論文リスト
- CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction [23.683636588751753]
State-of-the-art inpainting法は主に自然画像用に設計されており、シーンテキスト画像内のテキストを正しく復元することができない。
高品質なシーン画像復元とテキスト補完を実現するために,視覚テキストの塗装作業を特定する。
論文 参考訳(メタデータ) (2024-07-23T06:12:19Z) - Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model [31.819060415422353]
Diff-Textは、任意の言語のためのトレーニング不要のシーンテキスト生成フレームワークである。
本手法は, テキスト認識の精度と, 前景と後景のブレンディングの自然性の両方において, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2023-12-19T15:18:40Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - AnyText: Multilingual Visual Text Generation And Editing [18.811943975513483]
拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介する。
AnyTextは複数の言語で文字を書くことができます。
我々は、OCRアノテーションと300万の画像テキストペアを複数言語で含む、最初の大規模多言語テキスト画像データセットであるAnyWord-3Mをコントリビュートする。
論文 参考訳(メタデータ) (2023-11-06T12:10:43Z) - Conditional Text Image Generation with Diffusion Models [18.017541111064602]
条件付きモデルを用いたテキスト画像生成法(CTIG-DM)を提案する。
合成モード、拡張モード、リカバリモード、模倣モードの4つのテキスト画像生成モードは、これら3つの条件の組み合わせと設定によって導出することができる。
CTIG-DMは、実世界の複雑さと多様性をシミュレートするイメージサンプルを作成することができ、既存のテキスト認識器の性能を高めることができる。
論文 参考訳(メタデータ) (2023-06-19T09:44:43Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。