論文の概要: FreeText: Training-Free Text Rendering in Diffusion Transformers via Attention Localization and Spectral Glyph Injection
- arxiv url: http://arxiv.org/abs/2601.00535v1
- Date: Fri, 02 Jan 2026 02:36:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.500975
- Title: FreeText: Training-Free Text Rendering in Diffusion Transformers via Attention Localization and Spectral Glyph Injection
- Title(参考訳): FreeText:アテンションローカライゼーションとスペクトルグリフ注入による拡散変換器の学習自由テキストレンダリング
- Authors: Ruiqiang Zhang, Hengyi Wang, Chang Liu, Guanjie Wang, Zehua Ma, Weiming Zhang,
- Abstract要約: 大規模テキスト・ツー・イメージ(T2I)拡散モデルは、オープンドメイン合成において優れているが、正確なテキストレンダリングに苦戦している。
我々は,emphDiffusion Transformer(DiT)モデルの本質的なメカニズムを活用することにより,テキストレンダリングを改善するトレーニングフリーのプラグイン・アンド・プレイフレームワークであるtextbfFreeTextを提案する。
- 参考スコア(独自算出の注目度): 28.229261085054745
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large-scale text-to-image (T2I) diffusion models excel at open-domain synthesis but still struggle with precise text rendering, especially for multi-line layouts, dense typography, and long-tailed scripts such as Chinese. Prior solutions typically require costly retraining or rigid external layout constraints, which can degrade aesthetics and limit flexibility. We propose \textbf{FreeText}, a training-free, plug-and-play framework that improves text rendering by exploiting intrinsic mechanisms of \emph{Diffusion Transformer (DiT)} models. \textbf{FreeText} decomposes the problem into \emph{where to write} and \emph{what to write}. For \emph{where to write}, we localize writing regions by reading token-wise spatial attribution from endogenous image-to-text attention, using sink-like tokens as stable spatial anchors and topology-aware refinement to produce high-confidence masks. For \emph{what to write}, we introduce Spectral-Modulated Glyph Injection (SGMI), which injects a noise-aligned glyph prior with frequency-domain band-pass modulation to strengthen glyph structure and suppress semantic leakage (rendering the concept instead of the word). Extensive experiments on Qwen-Image, FLUX.1-dev, and SD3 variants across longText-Benchmark, CVTG, and our CLT-Bench show consistent gains in text readability while largely preserving semantic alignment and aesthetic quality, with modest inference overhead.
- Abstract(参考訳): 大規模テキスト・ツー・イメージ(T2I)拡散モデルは、オープンドメイン合成において優れているが、特に複数行のレイアウト、密度の高いタイポグラフィー、中国語のような長い尾のスクリプトにおいて、正確なテキストレンダリングに苦戦している。
従来のソリューションでは、コストのかかるトレーニングや厳格な外部レイアウトの制約が必要で、審美性を低下させ、柔軟性を制限できる。
トレーニング不要のプラグイン・アンド・プレイフレームワークである \textbf{FreeText} を提案する。これは, \emph{Diffusion Transformer (DiT) モデルの本質的なメカニズムを活用することで,テキストレンダリングを改善する。
\textbf{FreeText} は問題を \emph{where to write} と \emph{what to write} に分解する。
書ける場所は,内因性画像からテキストへの注意からトークン的空間属性を読み取ることで,スレークのようなトークンを安定な空間アンカーとして,トポロジ的改良を施して高信頼マスクを生成する。
本稿では、周波数領域のバンドパス変調に先立ってノイズ整列グリフを注入し、グリフ構造を強化し、セマンティックリークを抑制する(単語の代わりに概念をレンダリングする)スペクトル変調グリフ注入(SGMI)を導入する。
Qwen-Image, FLUX.1-dev, SD3の変種をlongText-Benchmark, CVTG, CLT-Benchで比較したところ, テキストの読みやすさは一貫して向上し, セマンティックアライメントや美的品質は保たれている。
関連論文リスト
- TextGuider: Training-Free Guidance for Text Rendering via Attention Alignment [68.91073792449201]
そこで本研究では,テキストの正確かつ完全な出現を促すトレーニング不要な方法であるTextGuiderを提案する。
具体的には,多モード拡散変換器(MM-DiT)モデルにおける注意パターンを解析し,特に画像に描画することを意図したテキスト関連トークンについて検討する。
テスト時間テキストレンダリングでは,OCR精度とCLIPスコアが大幅に向上し,高い結果が得られた。
論文 参考訳(メタデータ) (2025-12-10T06:18:30Z) - UniGlyph: Unified Segmentation-Conditioned Diffusion for Precise Visual Text Synthesis [38.658170067715965]
画素レベルの視覚テキストマスクを統一された条件入力として用いるセグメンテーション誘導フレームワークを提案する。
提案手法は,AnyTextベンチマークの最先端性能を実現する。
レイアウトテストのためのGlyphMM-benchmarkと、小規模テキスト領域における生成品質の評価のためのMiniText-benchmarkの2つの新しいベンチマークも導入した。
論文 参考訳(メタデータ) (2025-07-01T17:42:19Z) - GlyphMastero: A Glyph Encoder for High-Fidelity Scene Text Editing [23.64662356622401]
GlyphMasteroという特殊なグリフエンコーダは、ストロークレベルの精度でテキストを生成するために、潜時拡散モデルを導出するために設計されている。
本手法は,現状のシーンテキスト編集ベースラインよりも文精度が18.02%向上した。
論文 参考訳(メタデータ) (2025-05-08T03:11:58Z) - FLUX-Text: A Simple and Advanced Diffusion Transformer Baseline for Scene Text Editing [15.626092015533072]
シーンテキスト編集は、背景に整合したテキストの忠実さと全体的な視覚的品質を確保しながら、画像上のテキストを修正または追加することを目的としている。
最近の手法は主にUNetベースの拡散モデルに基づいており、シーンテキストの編集結果が改善されたが、複雑なグリフ構造に苦戦している。
単純かつ高度な多言語シーンテキスト編集用DiT法である textbfFLUX-Text を提案する。
論文 参考訳(メタデータ) (2025-05-06T08:56:28Z) - RepText: Rendering Visual Text via Replicating [15.476598851383919]
本稿では,ユーザが指定したフォントの視覚的テキストを正確にレンダリングする機能を備えた,事前学習されたモノリンガルテキスト・画像生成モデルの強化を目的としたRepTextを提案する。
具体的には、ControlNetの設定を採用し、さらに言語に依存しないグリフとレンダリングされたテキストの位置を統合して、調和したビジュアルテキストを生成する。
提案手法は,既存のオープンソース手法より優れており,ネイティブな多言語クローズドソースモデルに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2025-04-28T12:19:53Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - P+: Extended Textual Conditioning in Text-to-Image Generation [50.823884280133626]
テキスト・ツー・イメージ・モデルでは$P+$と呼ばれる拡張テキスト・コンディショニング・スペースを導入します。
拡張空間は画像合成に対してより密接な制御と制御を提供することを示す。
さらに、拡張テキスト変換(XTI)を導入し、画像は$P+$に変換され、層単位のトークンで表現される。
論文 参考訳(メタデータ) (2023-03-16T17:38:15Z) - All you need is a second look: Towards Tighter Arbitrary shape text
detection [80.85188469964346]
長い曲線のテキストインスタンスは、CNNの受信フィールドサイズが制限されているため、断片化されがちである。
矩形や四角形のバウンディングボックスを用いた単純な表現は、より難しい任意の形のテキストを扱う際に不足する。
textitNASKは、予測された幾何学的属性を使用して、より厳密な表現でテキストインスタンスを再構築する。
論文 参考訳(メタデータ) (2020-04-26T17:03:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。