Fugu-MT 論文翻訳(概要): AnyText: Multilingual Visual Text Generation And Editing

論文の概要: AnyText: Multilingual Visual Text Generation And Editing

arxiv url: http://arxiv.org/abs/2311.03054v1
Date: Mon, 6 Nov 2023 12:10:43 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 14:36:09.508436
Title: AnyText: Multilingual Visual Text Generation And Editing
Title（参考訳）: anytext:多言語視覚テキストの生成と編集
Authors: Yuxiang Tuo, Wangmeng Xiang, Jun-Yan He, Yifeng Geng, Xuansong Xie
Abstract要約: 拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介する。 AnyTextは複数の言語で文字を書くことができます。我々は、OCRアノテーションと300万の画像テキストペアを複数言語で含む、最初の大規模多言語テキスト画像データセットであるAnyWord-3Mをコントリビュートする。
参考スコア（独自算出の注目度）: 18.811943975513483
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion model based Text-to-Image has achieved impressive achievements recently. Although current technology for synthesizing images is highly advanced and capable of generating images with high fidelity, it is still possible to give the show away when focusing on the text area in the generated image. To address this issue, we introduce AnyText, a diffusion-based multilingual visual text generation and editing model, that focuses on rendering accurate and coherent text in the image. AnyText comprises a diffusion pipeline with two primary elements: an auxiliary latent module and a text embedding module. The former uses inputs like text glyph, position, and masked image to generate latent features for text generation or editing. The latter employs an OCR model for encoding stroke data as embeddings, which blend with image caption embeddings from the tokenizer to generate texts that seamlessly integrate with the background. We employed text-control diffusion loss and text perceptual loss for training to further enhance writing accuracy. AnyText can write characters in multiple languages, to the best of our knowledge, this is the first work to address multilingual visual text generation. It is worth mentioning that AnyText can be plugged into existing diffusion models from the community for rendering or editing text accurately. After conducting extensive evaluation experiments, our method has outperformed all other approaches by a significant margin. Additionally, we contribute the first large-scale multilingual text images dataset, AnyWord-3M, containing 3 million image-text pairs with OCR annotations in multiple languages. Based on AnyWord-3M dataset, we propose AnyText-benchmark for the evaluation of visual text generation accuracy and quality. Our project will be open-sourced on https://github.com/tyxsspa/AnyText to improve and promote the development of text generation technology.
Abstract（参考訳）: 拡散モデルに基づくText-to-Imageは最近、素晴らしい成果を上げています。現在, 画像合成技術は高度に進歩しており, 忠実度の高い画像を生成することができるが, 生成した画像のテキスト領域に注目する場合には, 表示を排除できる。この問題に対処するため,拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介した。 anytextは、補助的潜在モジュールとテキスト埋め込みモジュールという2つの主要な要素を持つ拡散パイプラインで構成されている。前者はテキストグリフ、位置、マスク画像などの入力を使用してテキスト生成や編集の遅延機能を生成する。後者は、ストロークデータを埋め込みとしてエンコードするためのOCRモデルを採用しており、トークンのイメージキャプションの埋め込みと組み合わせて、背景とシームレスに統合するテキストを生成する。テキスト制御拡散損失とテキスト知覚損失を訓練に採用し,文章の精度をさらに向上させた。 anytextは、私たちの知る限りでは、複数の言語で文字を書くことができます。 AnyTextはコミュニティの既存の拡散モデルにプラグインして、テキストのレンダリングや編集を正確に行うこともできる。広範な評価実験を行った結果,本手法は他の手法をかなり上回っている。さらに,300万のイメージテキストペアとocrアノテーションを複数言語で含む,最初の大規模多言語テキストイメージデータセットanyword-3mをコントリビュートする。 anyword-3mデータセットに基づいて,テキスト生成精度と品質評価のためのanytext-benchmarkを提案する。私たちのプロジェクトは、テキスト生成技術の改善と促進のために、https://github.com/tyxspa/anytextでオープンソース化されます。

関連論文リスト

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering [9.087419148444225]
本稿では,DiT(Diffusion Transformer)に基づくテキストレンダリングフレームワークであるEasyTextを紹介する。本稿では,文字位置の符号化と位置の符号化手法を提案する。我々は,100万の多言語画像テキストアノテーションを用いた大規模合成テキスト画像データセットを構築し,20Kの注釈付き画像の高品質なデータセットを構築した。
論文参考訳（メタデータ） (2025-05-30T09:55:39Z)
FLUX-Text: A Simple and Advanced Diffusion Transformer Baseline for Scene Text Editing [15.626092015533072]
シーンテキスト編集は、背景に整合したテキストの忠実さと全体的な視覚的品質を確保しながら、画像上のテキストを修正または追加することを目的としている。最近の手法は主にUNetベースの拡散モデルに基づいており、シーンテキストの編集結果が改善されたが、複雑なグリフ構造に苦戦している。単純かつ高度な多言語シーンテキスト編集用DiT法である textbfFLUX-Text を提案する。
論文参考訳（メタデータ） (2025-05-06T08:56:28Z)
SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild [55.619708995575785]
自然景観画像のテキストは、以下の4つの重要な基準を満たす必要がある。生成されたテキストは、自然なシーンOCR(Optical Character Recognition)タスクのトレーニングを容易にする。生成された画像は、テキスト検出やテキスト認識といったOCRタスクにおいて優れている。
論文参考訳（メタデータ） (2025-01-06T12:09:08Z)
AnyText2: Visual Text Generation and Editing With Customizable Attributes [10.24874245687826]
本稿では,自然シーン画像の生成と編集において,多言語テキスト属性を正確に制御する新しい手法であるAnyText2を紹介する。従来のAnyTextと比較して、私たちの新しいアプローチはイメージリアリズムを強化するだけでなく、推論速度の19.8%も向上します。 AnyTextの拡張として、この方法では、各行の属性をカスタマイズすることができ、それぞれ中国語と英語のテキスト精度が3.3%と9.3%向上した。
論文参考訳（メタデータ） (2024-11-22T03:31:56Z)
TextMastero: Mastering High-Quality Scene Text Editing in Diverse Languages and Styles [12.182588762414058]
シーンテキスト編集は、オリジナルのように新たに生成されたテキストのスタイルを維持しながら、画像上のテキストを変更することを目的としている。最近の研究は拡散モデルを活用し、改善された結果を示しているが、依然として課題に直面している。 emphTextMastero - 潜時拡散モデル(LDM)に基づく多言語シーンテキスト編集アーキテクチャを慎重に設計した。
論文参考訳（メタデータ） (2024-08-20T08:06:09Z)
Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文参考訳（メタデータ） (2024-07-19T09:08:20Z)
AnyTrans: Translate AnyText in the Image with Large Scale Models [88.5887934499388]
本稿では、画像中のタスク翻訳AnyText(TATI)のためのオール・エンコンパス・フレームワークであるAnyTransを紹介する。我々のフレームワークは、翻訳中にテキスト要素と視覚要素の両方から文脈的手がかりを取り入れている。 6つの言語対の多言語テキスト画像翻訳データからなるMTIT6というテストデータセットを精巧にコンパイルした。
論文参考訳（メタデータ） (2024-06-17T11:37:48Z)
Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文参考訳（メタデータ） (2023-11-28T06:51:28Z)
TextDiffuser-2: Unleashing the Power of Language Models for Text Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文参考訳（メタデータ） (2023-11-28T04:02:40Z)
TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文参考訳（メタデータ） (2023-05-18T10:16:19Z)
GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2023-04-25T02:14:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。