論文の概要: FLUX-Text: A Simple and Advanced Diffusion Transformer Baseline for Scene Text Editing
- arxiv url: http://arxiv.org/abs/2505.03329v2
- Date: Tue, 05 Aug 2025 12:34:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 15:23:34.158957
- Title: FLUX-Text: A Simple and Advanced Diffusion Transformer Baseline for Scene Text Editing
- Title(参考訳): FLUX-Text: シーンテキスト編集のためのシンプルで高度な拡散変換器ベースライン
- Authors: Rui Lan, Yancheng Bai, Xu Duan, Mingxing Li, Dongyang Jin, Ryan Xu, Lei Sun, Xiangxiang Chu,
- Abstract要約: シーンテキスト編集は、背景に整合したテキストの忠実さと全体的な視覚的品質を確保しながら、画像上のテキストを修正または追加することを目的としている。
最近の手法は主にUNetベースの拡散モデルに基づいており、シーンテキストの編集結果が改善されたが、複雑なグリフ構造に苦戦している。
単純かつ高度な多言語シーンテキスト編集用DiT法である textbfFLUX-Text を提案する。
- 参考スコア(独自算出の注目度): 15.626092015533072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text editing aims to modify or add texts on images while ensuring text fidelity and overall visual quality consistent with the background. Recent methods are primarily built on UNet-based diffusion models, which have improved scene text editing results, but still struggle with complex glyph structures, especially for non-Latin ones (\eg, Chinese, Korean, Japanese). To address these issues, we present \textbf{FLUX-Text}, a simple and advanced multilingual scene text editing DiT method. Specifically, our FLUX-Text enhances glyph understanding and generation through lightweight Visual and Text Embedding Modules, while preserving the original generative capability of FLUX. We further propose a Regional Text Perceptual Loss tailored for text regions, along with a matching two-stage training strategy to better balance text editing and overall image quality. Benefiting from the DiT-based architecture and lightweight feature injection modules, FLUX-Text can be trained with only $0.1$M training examples, a \textbf{97\%} reduction compared to $2.9$M required by popular methods. Extensive experiments on multiple public datasets, including English and Chinese benchmarks, demonstrate that our method surpasses other methods in visual quality and text fidelity. All the code is available at https://github.com/AMAP-ML/FluxText.
- Abstract(参考訳): シーンテキスト編集は、背景に整合したテキストの忠実さと全体的な視覚的品質を確保しながら、画像上のテキストを修正または追加することを目的としている。
最近の手法は主にUNetベースの拡散モデルに基づいており、シーンテキストの編集結果が改善されているが、特に非ラテン語(中国語、韓国語、日本語)では複雑なグリフ構造に苦戦している。
これらの問題に対処するために、簡単な多言語シーンテキスト編集である \textbf{FLUX-Text} を提案する。
具体的には、FLUX-Textは、FLUXのオリジナルの生成能力を保ちながら、軽量なVisual and Text Embedding Modulesを通じてグリフの理解と生成を強化する。
さらに、テキスト領域に適した地域テキスト知覚損失と、テキスト編集と全体的な画質のバランスを改善するための2段階のトレーニング戦略を提案する。
DiTベースのアーキテクチャと軽量な機能インジェクションモジュールから恩恵を受け、FLUX-Textは、一般的なメソッドで必要となる2.9$Mに比べて、わずか0.1$Mのトレーニング例でトレーニングできる。
英語と中国語のベンチマークを含む複数の公開データセットに対する大規模な実験は、我々の手法が視覚的品質とテキストの忠実性において他の手法を超えることを実証している。
すべてのコードはhttps://github.com/AMAP-ML/FluxTextで入手できる。
関連論文リスト
- TextFlux: An OCR-Free DiT Model for High-Fidelity Multilingual Scene Text Synthesis [29.297349416515665]
TextFluxは、多言語シーンテキスト合成を可能にするDiTベースのフレームワークである。
TextFluxは低リソースのマルチリンガル設定で有効であり、1000サンプル未満の新たな言語で高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-05-23T11:46:46Z) - RepText: Rendering Visual Text via Replicating [15.476598851383919]
本稿では,ユーザが指定したフォントの視覚的テキストを正確にレンダリングする機能を備えた,事前学習されたモノリンガルテキスト・画像生成モデルの強化を目的としたRepTextを提案する。
具体的には、ControlNetの設定を採用し、さらに言語に依存しないグリフとレンダリングされたテキストの位置を統合して、調和したビジュアルテキストを生成する。
提案手法は,既存のオープンソース手法より優れており,ネイティブな多言語クローズドソースモデルに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2025-04-28T12:19:53Z) - Beyond Flat Text: Dual Self-inherited Guidance for Visual Text Generation [17.552733309504486]
現実のイメージでは、斜めまたは湾曲したテキスト、特に缶、バナー、バッジは、芸術的なデザインやレイアウトの制約により、平らなテキストのように頻繁に現れる。
難易度の高いシナリオで視覚テキストを正確に生成する新しいトレーニングフリーフレームワークSTGenを導入する。
論文 参考訳(メタデータ) (2025-01-10T11:44:59Z) - AnyText2: Visual Text Generation and Editing With Customizable Attributes [10.24874245687826]
本稿では,自然シーン画像の生成と編集において,多言語テキスト属性を正確に制御する新しい手法であるAnyText2を紹介する。
従来のAnyTextと比較して、私たちの新しいアプローチはイメージリアリズムを強化するだけでなく、推論速度の19.8%も向上します。
AnyTextの拡張として、この方法では、各行の属性をカスタマイズすることができ、それぞれ中国語と英語のテキスト精度が3.3%と9.3%向上した。
論文 参考訳(メタデータ) (2024-11-22T03:31:56Z) - First Creating Backgrounds Then Rendering Texts: A New Paradigm for Visual Text Blending [5.3798706094384725]
背景作成とテキストのレンダリングの両方を含む新しいビジュアルテキストブレンディングパラダイムを提案する。
具体的には、背景生成装置を開発し、高忠実でテキストフリーな自然画像を生成する。
また,シーンテキスト検出のためのシーンテキストデータセット合成など,本手法に基づくダウンストリームアプリケーションについても検討する。
論文 参考訳(メタデータ) (2024-10-14T05:23:43Z) - TextMastero: Mastering High-Quality Scene Text Editing in Diverse Languages and Styles [12.182588762414058]
シーンテキスト編集は、オリジナルのように新たに生成されたテキストのスタイルを維持しながら、画像上のテキストを変更することを目的としている。
最近の研究は拡散モデルを活用し、改善された結果を示しているが、依然として課題に直面している。
emphTextMastero - 潜時拡散モデル(LDM)に基づく多言語シーンテキスト編集アーキテクチャを慎重に設計した。
論文 参考訳(メタデータ) (2024-08-20T08:06:09Z) - AnyTrans: Translate AnyText in the Image with Large Scale Models [88.5887934499388]
本稿では、画像中のタスク翻訳AnyText(TATI)のためのオール・エンコンパス・フレームワークであるAnyTransを紹介する。
我々のフレームワークは、翻訳中にテキスト要素と視覚要素の両方から文脈的手がかりを取り入れている。
6つの言語対の多言語テキスト画像翻訳データからなるMTIT6というテストデータセットを精巧にコンパイルした。
論文 参考訳(メタデータ) (2024-06-17T11:37:48Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - TextDiffuser-2: Unleashing the Power of Language Models for Text
Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。
拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。
我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文 参考訳(メタデータ) (2023-11-28T04:02:40Z) - AnyText: Multilingual Visual Text Generation And Editing [18.811943975513483]
拡散型多言語視覚テキスト生成・編集モデルであるAnyTextを紹介する。
AnyTextは複数の言語で文字を書くことができます。
我々は、OCRアノテーションと300万の画像テキストペアを複数言語で含む、最初の大規模多言語テキスト画像データセットであるAnyWord-3Mをコントリビュートする。
論文 参考訳(メタデータ) (2023-11-06T12:10:43Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - Improving Diffusion Models for Scene Text Editing with Dual Encoders [44.12999932588205]
シーンテキスト編集(Scene text editing)は、特定のテキストを画像に修正または挿入する作業である。
拡散モデルの最近の進歩は、これらの制限をテキスト条件による画像編集で克服することを約束している。
デュアルエンコーダ設計による事前学習拡散モデルを改善するためにDIFFSTEを提案する。
論文 参考訳(メタデータ) (2023-04-12T02:08:34Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。