論文の概要: AnyText: Multilingual Visual Text Generation And Editing
- arxiv url: http://arxiv.org/abs/2311.03054v2
- Date: Tue, 7 Nov 2023 06:53:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 12:25:18.330125
- Title: AnyText: Multilingual Visual Text Generation And Editing
- Title(参考訳): anytext:多言語視覚テキストの生成と編集
- Authors: Yuxiang Tuo, Wangmeng Xiang, Jun-Yan He, Yifeng Geng, Xuansong Xie
- Abstract要約: 拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介する。
AnyTextは複数の言語で文字を書くことができます。
我々は、OCRアノテーションと300万の画像テキストペアを複数言語で含む、最初の大規模多言語テキスト画像データセットであるAnyWord-3Mをコントリビュートする。
- 参考スコア(独自算出の注目度): 18.811943975513483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion model based Text-to-Image has achieved impressive achievements
recently. Although current technology for synthesizing images is highly
advanced and capable of generating images with high fidelity, it is still
possible to give the show away when focusing on the text area in the generated
image. To address this issue, we introduce AnyText, a diffusion-based
multilingual visual text generation and editing model, that focuses on
rendering accurate and coherent text in the image. AnyText comprises a
diffusion pipeline with two primary elements: an auxiliary latent module and a
text embedding module. The former uses inputs like text glyph, position, and
masked image to generate latent features for text generation or editing. The
latter employs an OCR model for encoding stroke data as embeddings, which blend
with image caption embeddings from the tokenizer to generate texts that
seamlessly integrate with the background. We employed text-control diffusion
loss and text perceptual loss for training to further enhance writing accuracy.
AnyText can write characters in multiple languages, to the best of our
knowledge, this is the first work to address multilingual visual text
generation. It is worth mentioning that AnyText can be plugged into existing
diffusion models from the community for rendering or editing text accurately.
After conducting extensive evaluation experiments, our method has outperformed
all other approaches by a significant margin. Additionally, we contribute the
first large-scale multilingual text images dataset, AnyWord-3M, containing 3
million image-text pairs with OCR annotations in multiple languages. Based on
AnyWord-3M dataset, we propose AnyText-benchmark for the evaluation of visual
text generation accuracy and quality. Our project will be open-sourced on
https://github.com/tyxsspa/AnyText to improve and promote the development of
text generation technology.
- Abstract(参考訳): 拡散モデルに基づくText-to-Imageは最近、素晴らしい成果を上げています。
現在, 画像合成技術は高度に進歩しており, 忠実度の高い画像を生成することができるが, 生成した画像のテキスト領域に注目する場合には, 表示を排除できる。
この問題に対処するため,拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介した。
anytextは、補助的潜在モジュールとテキスト埋め込みモジュールという2つの主要な要素を持つ拡散パイプラインで構成されている。
前者はテキストグリフ、位置、マスク画像などの入力を使用してテキスト生成や編集の遅延機能を生成する。
後者は、ストロークデータを埋め込みとしてエンコードするためのOCRモデルを採用しており、トークンのイメージキャプションの埋め込みと組み合わせて、背景とシームレスに統合するテキストを生成する。
テキスト制御拡散損失とテキスト知覚損失を訓練に採用し,文章の精度をさらに向上させた。
anytextは、私たちの知る限りでは、複数の言語で文字を書くことができます。
AnyTextはコミュニティの既存の拡散モデルにプラグインして、テキストのレンダリングや編集を正確に行うこともできる。
広範な評価実験を行った結果,本手法は他の手法をかなり上回っている。
さらに,300万のイメージテキストペアとocrアノテーションを複数言語で含む,最初の大規模多言語テキストイメージデータセットanyword-3mをコントリビュートする。
anyword-3mデータセットに基づいて,テキスト生成精度と品質評価のためのanytext-benchmarkを提案する。
私たちのプロジェクトは、テキスト生成技術の改善と促進のために、https://github.com/tyxspa/anytextでオープンソース化されます。
関連論文リスト
- AnyText2: Visual Text Generation and Editing With Customizable Attributes [10.24874245687826]
本稿では,自然シーン画像の生成と編集において,多言語テキスト属性を正確に制御する新しい手法であるAnyText2を紹介する。
従来のAnyTextと比較して、私たちの新しいアプローチはイメージリアリズムを強化するだけでなく、推論速度の19.8%も向上します。
AnyTextの拡張として、この方法では、各行の属性をカスタマイズすることができ、それぞれ中国語と英語のテキスト精度が3.3%と9.3%向上した。
論文 参考訳(メタデータ) (2024-11-22T03:31:56Z) - TextMastero: Mastering High-Quality Scene Text Editing in Diverse Languages and Styles [12.182588762414058]
シーンテキスト編集は、オリジナルのように新たに生成されたテキストのスタイルを維持しながら、画像上のテキストを変更することを目的としている。
最近の研究は拡散モデルを活用し、改善された結果を示しているが、依然として課題に直面している。
emphTextMastero - 潜時拡散モデル(LDM)に基づく多言語シーンテキスト編集アーキテクチャを慎重に設計した。
論文 参考訳(メタデータ) (2024-08-20T08:06:09Z) - Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - AnyTrans: Translate AnyText in the Image with Large Scale Models [88.5887934499388]
本稿では、画像中のタスク翻訳AnyText(TATI)のためのオール・エンコンパス・フレームワークであるAnyTransを紹介する。
我々のフレームワークは、翻訳中にテキスト要素と視覚要素の両方から文脈的手がかりを取り入れている。
6つの言語対の多言語テキスト画像翻訳データからなるMTIT6というテストデータセットを精巧にコンパイルした。
論文 参考訳(メタデータ) (2024-06-17T11:37:48Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - TextDiffuser-2: Unleashing the Power of Language Models for Text
Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。
拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。
我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文 参考訳(メタデータ) (2023-11-28T04:02:40Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。