論文の概要: Training-Free Occluded Text Rendering via Glyph Priors and Attention-Guided Semantic Blending
- arxiv url: http://arxiv.org/abs/2605.16810v1
- Date: Sat, 16 May 2026 04:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.098734
- Title: Training-Free Occluded Text Rendering via Glyph Priors and Attention-Guided Semantic Blending
- Title(参考訳): グリフ前駆体と注意誘導セマンティックブレンディングによる無訓練咬合テキストレンダリング
- Authors: Jingqi Hou, Hongtian Wang,
- Abstract要約: 本稿では,事前学習したFLUX.1-devバックボーンを用いたテキストレンダリングのためのトレーニングフリーフレームワークを提案する。
このタスクは、認識可能なタイポグラフィーを描画し、対象とするテキスト領域に隠蔽オブジェクトを置くモデルを必要とする。
そこで本研究では,オクルーダー挿入からテキスト保存を分離する2重ストリーム推論フレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a training-free framework for occluded text rendering with a pretrained FLUX.1-dev backbone. The task requires a model to render recognizable typography and place an occluding object over the intended text region. This setting remains difficult for existing text-to-image generators: the occluder often drifts away from the text, while the text may be distorted or appear to float on top of the occluding object. To address this problem, we propose a restarted dual-stream inference framework that decouples text-layout preservation from occluder insertion. A Base Stream provides a clean typographic reference and same-step key/value (K/V) features, while the Edit Stream is conditioned on the occlusion prompt. We further adopt the spectral glyph-prior idea from FreeText and adapt it to stabilize the target text structure during early-to-mid denoising. In the reasoning pass, our method localizes the target text, estimates a text-band region from token-conditioned attention and glyph support, and derives an anchor-aware hard fusion mask for the occluder. In the final edit pass, generation restarts from the same initial noise and applies hard mask-guided image-token K/V replacement at selected attention sites, preserving the Base layout outside the mask while injecting the occluder appearance from the Edit Stream inside the mask. Experiments on representative occluded text scenarios demonstrate substantially improved text readability and competitive occlusion alignment, yielding more stable object-on-text compositions without any model fine-tuning.
- Abstract(参考訳): 本稿では,事前学習したFLUX.1-devバックボーンを用いたテキストレンダリングのためのトレーニングフリーフレームワークを提案する。
このタスクは、認識可能なタイポグラフィーを描画し、対象とするテキスト領域に隠蔽オブジェクトを置くモデルを必要とする。
この設定は、既存のテキストからイメージへのジェネレータにとって難しいままであり、オクルーダーはテキストからしばしば遠ざかるが、テキストは歪んだり、オクルージョンオブジェクトの上に浮かんでいるように見える。
この問題に対処するため,オクルーダー挿入からテキスト・レイアウト保存を分離する2重ストリーム推論フレームワークを提案する。
Base Streamはクリーンなタイポグラフィ参照と同ステップのキー/値(K/V)機能を提供し、Edit Streamはオクルージョンプロンプトに条件付けされている。
我々はさらに、FreeTextのスペクトルグリフ優先の考え方を採用し、初期から中ごろまで対象のテキスト構造を安定させるように適応する。
推論パスでは、ターゲットテキストをローカライズし、トークン条件の注意とグリフのサポートからテキストバンド領域を推定し、オクルーダー用のアンカー対応ハードフュージョンマスクを導出する。
最終編集パスでは、生成は、同じ初期ノイズから再起動し、選択された注目箇所でハードマスク誘導K/V交換を施し、マスク内の編集ストリームからオクルーダーの外観を注入しながら、マスクの外側のベースレイアウトを保存する。
代表的な閉塞テキストシナリオの実験では、テキストの可読性と競合的な閉塞アライメントが大幅に向上し、モデル微調整なしでより安定したオブジェクト・オン・テキストの合成が得られる。
関連論文リスト
- FreeText: Training-Free Text Rendering in Diffusion Transformers via Attention Localization and Spectral Glyph Injection [28.229261085054745]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、オープンドメイン合成において優れているが、正確なテキストレンダリングに苦戦している。
我々は,emphDiffusion Transformer(DiT)モデルの本質的なメカニズムを活用することにより,テキストレンダリングを改善するトレーニングフリーのプラグイン・アンド・プレイフレームワークであるtextbfFreeTextを提案する。
論文 参考訳(メタデータ) (2026-01-02T02:36:48Z) - TextGuider: Training-Free Guidance for Text Rendering via Attention Alignment [68.91073792449201]
そこで本研究では,テキストの正確かつ完全な出現を促すトレーニング不要な方法であるTextGuiderを提案する。
具体的には,多モード拡散変換器(MM-DiT)モデルにおける注意パターンを解析し,特に画像に描画することを意図したテキスト関連トークンについて検討する。
テスト時間テキストレンダリングでは,OCR精度とCLIPスコアが大幅に向上し,高い結果が得られた。
論文 参考訳(メタデータ) (2025-12-10T06:18:30Z) - DCText: Scheduled Attention Masking for Visual Text Generation via Divide-and-Conquer Strategy [41.781258763025896]
DCTextは、ディバイド・アンド・コンカエ戦略を採用する、トレーニング不要なビジュアルテキスト生成方法である。
提案手法はまず,対象テキストの抽出と分割によってプロンプトを分解し,それぞれを指定された領域に割り当てる。
単文および複数文のベンチマーク実験により、DCTextは画像品質を損なうことなく、最高のテキスト精度を達成することが示された。
論文 参考訳(メタデータ) (2025-12-01T05:52:55Z) - RepText: Rendering Visual Text via Replicating [15.476598851383919]
本稿では,ユーザが指定したフォントの視覚的テキストを正確にレンダリングする機能を備えた,事前学習されたモノリンガルテキスト・画像生成モデルの強化を目的としたRepTextを提案する。
具体的には、ControlNetの設定を採用し、さらに言語に依存しないグリフとレンダリングされたテキストの位置を統合して、調和したビジュアルテキストを生成する。
提案手法は,既存のオープンソース手法より優れており,ネイティブな多言語クローズドソースモデルに匹敵する結果が得られる。
論文 参考訳(メタデータ) (2025-04-28T12:19:53Z) - TextDestroyer: A Training- and Annotation-Free Diffusion Method for Destroying Anomal Text from Images [6.7015658051949]
TextDestroyerは、シーンテキスト破壊のためのトレーニングおよびアノテーションなしのメソッドである。
提案手法は,復元前のガウス分布を用いて遅延開始符号中のテキスト領域をスクランブルする。
TextDestroyerの利点は、(1)労働集約型データアノテーションとリソース集約型トレーニングを排除し、(2)より徹底的なテキスト破壊を実現し、認識可能なトレースを防止し、(3)より優れた一般化能力を示し、現実世界のシーンと生成された画像の両方でうまく機能する。
論文 参考訳(メタデータ) (2024-11-01T04:41:00Z) - First Creating Backgrounds Then Rendering Texts: A New Paradigm for Visual Text Blending [5.3798706094384725]
背景作成とテキストのレンダリングの両方を含む新しいビジュアルテキストブレンディングパラダイムを提案する。
具体的には、背景生成装置を開発し、高忠実でテキストフリーな自然画像を生成する。
また,シーンテキスト検出のためのシーンテキストデータセット合成など,本手法に基づくダウンストリームアプリケーションについても検討する。
論文 参考訳(メタデータ) (2024-10-14T05:23:43Z) - Diffree: Text-Guided Shape Free Object Inpainting with Diffusion Model [81.96954332787655]
テキスト制御のみによるテキスト誘導オブジェクトの追加を容易にするテキスト・ツー・イメージ(T2I)モデルであるDiffreeを紹介する。
実験では、Diffreeはバックグラウンドの一貫性、空間、オブジェクトの関連性、品質を維持しながら、高い成功率を持つ新しいオブジェクトを追加します。
論文 参考訳(メタデータ) (2024-07-24T03:58:58Z) - Zero-Painter: Training-Free Layout Control for Text-to-Image Synthesis [63.757624792753205]
レイアウト条件のテキスト-画像合成のためのZero-Painterを提案する。
本手法では,オブジェクトマスクと個々の記述とグローバルテキストプロンプトを組み合わせることで,忠実度の高い画像を生成する。
論文 参考訳(メタデータ) (2024-06-06T13:02:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。