論文の概要: EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering
- arxiv url: http://arxiv.org/abs/2505.24417v1
- Date: Fri, 30 May 2025 09:55:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.888999
- Title: EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering
- Title(参考訳): EasyText:多言語テキストレンダリングのための制御可能な拡散変換器
- Authors: Runnan Lu, Yuxuan Zhang, Jailing Liu, Haifa Wang, Yiren Song,
- Abstract要約: 本稿では,DiT(Diffusion Transformer)に基づくテキストレンダリングフレームワークであるEasyTextを紹介する。
本稿では,文字位置の符号化と位置の符号化手法を提案する。
我々は,100万の多言語画像テキストアノテーションを用いた大規模合成テキスト画像データセットを構築し,20Kの注釈付き画像の高品質なデータセットを構築した。
- 参考スコア(独自算出の注目度): 9.087419148444225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating accurate multilingual text with diffusion models has long been desired but remains challenging. Recent methods have made progress in rendering text in a single language, but rendering arbitrary languages is still an unexplored area. This paper introduces EasyText, a text rendering framework based on DiT (Diffusion Transformer), which connects denoising latents with multilingual character tokens encoded as character tokens. We propose character positioning encoding and position encoding interpolation techniques to achieve controllable and precise text rendering. Additionally, we construct a large-scale synthetic text image dataset with 1 million multilingual image-text annotations as well as a high-quality dataset of 20K annotated images, which are used for pretraining and fine-tuning respectively. Extensive experiments and evaluations demonstrate the effectiveness and advancement of our approach in multilingual text rendering, visual quality, and layout-aware text integration.
- Abstract(参考訳): 拡散モデルによる正確な多言語テキストの生成は長年望まれてきたが、依然として困難である。
最近の手法では、単一の言語でテキストをレンダリングする手法が進歩しているが、任意の言語をレンダリングすることは、まだ探索されていない領域である。
本稿では,DiT(Diffusion Transformer)をベースとしたテキストレンダリングフレームワークであるEasyTextを紹介した。
そこで本研究では,文字位置の符号化と位置の補間手法を提案する。
さらに,100万の多言語画像テキストアノテーションを持つ大規模合成テキスト画像データセットと,事前学習と微調整に使用する20K注釈画像の高品質データセットを構築した。
多言語テキストレンダリング、視覚的品質、レイアウト対応テキスト統合における我々のアプローチの有効性と進歩を示す実験と評価を行った。
関連論文リスト
- AnyText: Multilingual Visual Text Generation And Editing [18.811943975513483]
拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介する。
AnyTextは複数の言語で文字を書くことができます。
我々は、OCRアノテーションと300万の画像テキストペアを複数言語で含む、最初の大規模多言語テキスト画像データセットであるAnyWord-3Mをコントリビュートする。
論文 参考訳(メタデータ) (2023-11-06T12:10:43Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。