論文の概要: DCText: Scheduled Attention Masking for Visual Text Generation via Divide-and-Conquer Strategy
- arxiv url: http://arxiv.org/abs/2512.01302v1
- Date: Mon, 01 Dec 2025 05:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.701078
- Title: DCText: Scheduled Attention Masking for Visual Text Generation via Divide-and-Conquer Strategy
- Title(参考訳): DCText:Divide-and-Conquer戦略による視覚テキスト生成のためのスケジューリングアテンションマスキング
- Authors: Jaewoo Song, Jooyoung Choi, Kanghyun Baek, Sangyub Lee, Daemin Park, Sungroh Yoon,
- Abstract要約: DCTextは、ディバイド・アンド・コンカエ戦略を採用する、トレーニング不要なビジュアルテキスト生成方法である。
提案手法はまず,対象テキストの抽出と分割によってプロンプトを分解し,それぞれを指定された領域に割り当てる。
単文および複数文のベンチマーク実験により、DCTextは画像品質を損なうことなく、最高のテキスト精度を達成することが示された。
- 参考スコア(独自算出の注目度): 41.781258763025896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent text-to-image models achieving highfidelity text rendering, they still struggle with long or multiple texts due to diluted global attention. We propose DCText, a training-free visual text generation method that adopts a divide-and-conquer strategy, leveraging the reliable short-text generation of Multi-Modal Diffusion Transformers. Our method first decomposes a prompt by extracting and dividing the target text, then assigns each to a designated region. To accurately render each segment within their regions while preserving overall image coherence, we introduce two attention masks - Text-Focus and Context-Expansion - applied sequentially during denoising. Additionally, Localized Noise Initialization further improves text accuracy and region alignment without increasing computational cost. Extensive experiments on single- and multisentence benchmarks show that DCText achieves the best text accuracy without compromising image quality while also delivering the lowest generation latency.
- Abstract(参考訳): 近年、高忠実度テキストレンダリングを実現するテキスト・ツー・イメージモデルが登場しているが、グローバルな関心が薄れたため、長いテキストや複数のテキストに苦戦している。
我々は,マルチモーダル拡散変換器の信頼性の高い短文生成を活かし,分割・コンカ戦略を取り入れたトレーニング不要なビジュアルテキスト生成手法DCTextを提案する。
提案手法はまず,対象テキストの抽出と分割によってプロンプトを分解し,それぞれを指定された領域に割り当てる。
画像コヒーレンスを保ちながら領域内の各セグメントを正確にレンダリングするために,2つの注意マスク – Text-Focus と Context-Expansion – を導入する。
さらに、局所雑音初期化により、計算コストを増大させることなく、テキストの精度と領域のアライメントが向上する。
単文と多文のベンチマークによる大規模な実験により、DCTextは画像品質を損なうことなく最高のテキスト精度を達成し、また、最低世代のレイテンシを提供することが示された。
関連論文リスト
- UniGlyph: Unified Segmentation-Conditioned Diffusion for Precise Visual Text Synthesis [38.658170067715965]
画素レベルの視覚テキストマスクを統一された条件入力として用いるセグメンテーション誘導フレームワークを提案する。
提案手法は,AnyTextベンチマークの最先端性能を実現する。
レイアウトテストのためのGlyphMM-benchmarkと、小規模テキスト領域における生成品質の評価のためのMiniText-benchmarkの2つの新しいベンチマークも導入した。
論文 参考訳(メタデータ) (2025-07-01T17:42:19Z) - GlyphMastero: A Glyph Encoder for High-Fidelity Scene Text Editing [23.64662356622401]
GlyphMasteroという特殊なグリフエンコーダは、ストロークレベルの精度でテキストを生成するために、潜時拡散モデルを導出するために設計されている。
本手法は,現状のシーンテキスト編集ベースラインよりも文精度が18.02%向上した。
論文 参考訳(メタデータ) (2025-05-08T03:11:58Z) - SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild [55.619708995575785]
自然景観画像のテキストは、以下の4つの重要な基準を満たす必要がある。
生成されたテキストは、自然なシーンOCR(Optical Character Recognition)タスクのトレーニングを容易にする。
生成された画像は、テキスト検出やテキスト認識といったOCRタスクにおいて優れている。
論文 参考訳(メタデータ) (2025-01-06T12:09:08Z) - TextCenGen: Attention-Guided Text-Centric Background Adaptation for Text-to-Image Generation [21.171612603385405]
テキストフレンドリーな画像生成のための,空白領域におけるトレーニング不要な動的バックグラウンド適応であるTextCenGenを提案する。
本手法は,テキスト領域に重なり合う矛盾するオブジェクトを識別するために,クロスアテンションマップを解析する。
本手法はプラグ・アンド・プレイであり, セマンティックな忠実さと視覚的品質の両面のバランスを保ちながら, 追加の訓練は不要である。
論文 参考訳(メタデータ) (2024-04-18T01:10:24Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Self-supervised Scene Text Segmentation with Object-centric Layered
Representations Augmented by Text Regions [22.090074821554754]
本稿では,オブジェクト中心の表現を階層的に分離し,画像からテキストや背景に分割する自己教師付きシーンテキストセグメンテーションアルゴリズムを提案する。
いくつかの公開シーンのテキストデータセットにおいて、この手法は最先端の教師なしセグメンテーションアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-08-25T05:00:05Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。