論文の概要: TextGround4M: A Prompt-Aligned Dataset for Layout-Aware Text Rendering
- arxiv url: http://arxiv.org/abs/2604.24459v1
- Date: Mon, 27 Apr 2026 13:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:08.018778
- Title: TextGround4M: A Prompt-Aligned Dataset for Layout-Aware Text Rendering
- Title(参考訳): TextGround4M:レイアウト対応テキストレンダリングのためのプロンプト対応データセット
- Authors: Dongxing Mao, Yilin Wang, Linjie Li, Zhengyuan Yang, Alex Jinpeng Wang,
- Abstract要約: テキスト・ツー・イメージ生成の進歩にもかかわらず、モデルはまだ、プロンプト仕様のテキストを正しい空間レイアウトでレンダリングするのに苦労している。
TextGround4Mは400万以上のプロンプトイメージ対のデータセットで、プロンプトと対応するバウンディングボックスにグラウンドされたスパンレベルテキストをアノテートする。
本稿では、モデルアーキテクチャや推論動作を変更することなく、トレーニング中にレイアウトを意識したスパントークンを付加する自動回帰型T2Iモデルの軽量なトレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 64.22226877213521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advances in text-to-image generation, models still struggle to accurately render prompt-specified text with correct spatial layout -- especially in multi-span, structured settings. This challenge is driven not only by the lack of datasets that align prompts with the exact text and layout expected in the image, but also by the absence of effective metrics for evaluating layout quality. To address these issues, we introduce TextGround4M, a large-scale dataset of over 4 million prompt-image pairs, each annotated with span-level text grounded in the prompt and corresponding bounding boxes. This enables fine-grained supervision for layout-aware, prompt-grounded text rendering. Building on this, we propose a lightweight training strategy for autoregressive T2I models that appends layout-aware span tokens during training, without altering model architecture or inference behavior. We further construct a benchmark with stratified layout complexity to evaluate both open-source and proprietary models in a zero-shot setting. In addition, we introduce two layout-aware metrics to address the long-standing lack of spatial evaluation in text rendering. Our results show that models trained on TextGround4M outperform strong baselines in text fidelity, spatial accuracy, and prompt consistency, highlighting the importance of fine-grained layout supervision for grounded T2I generation.
- Abstract(参考訳): 近年のテキスト・ツー・イメージ生成の進歩にもかかわらず、モデルでは、特にマルチスパンで構造化された設定において、プロンプト指定されたテキストを正確な空間レイアウトで正確にレンダリングすることに苦慮している。
この課題は、画像に期待される正確なテキストとレイアウトにプロンプトを合わせるデータセットの欠如だけでなく、レイアウト品質を評価するための効果的な指標の欠如によっても引き起こされる。
これらの問題に対処するために,我々は,400万以上のプロンプトイメージペアからなる大規模データセットであるTextGround4Mを紹介した。
これにより、レイアウト対応、即席のテキストレンダリングのきめ細かい監督が可能になる。
これに基づいて、モデルアーキテクチャや推論動作を変更することなく、トレーニング中にレイアウト対応スパントークンを付加する自動回帰型T2Iモデルの軽量なトレーニング戦略を提案する。
さらに、ゼロショット設定でオープンソースモデルとプロプライエタリモデルの両方を評価するために、階層化レイアウトの複雑さを伴うベンチマークを構築した。
さらに,テキストレンダリングにおける空間的評価の長年の欠如に対処するために,2つのレイアウト対応メトリクスを導入する。
その結果,TextGround4Mでトレーニングしたモデルは,テキストの忠実度,空間精度,即時一貫性において高いベースラインを達成し,T2I生成におけるきめ細かいレイアウト管理の重要性を浮き彫りにした。
関連論文リスト
- TextGuider: Training-Free Guidance for Text Rendering via Attention Alignment [68.91073792449201]
そこで本研究では,テキストの正確かつ完全な出現を促すトレーニング不要な方法であるTextGuiderを提案する。
具体的には,多モード拡散変換器(MM-DiT)モデルにおける注意パターンを解析し,特に画像に描画することを意図したテキスト関連トークンについて検討する。
テスト時間テキストレンダリングでは,OCR精度とCLIPスコアが大幅に向上し,高い結果が得られた。
論文 参考訳(メタデータ) (2025-12-10T06:18:30Z) - UniGlyph: Unified Segmentation-Conditioned Diffusion for Precise Visual Text Synthesis [38.658170067715965]
画素レベルの視覚テキストマスクを統一された条件入力として用いるセグメンテーション誘導フレームワークを提案する。
提案手法は,AnyTextベンチマークの最先端性能を実現する。
レイアウトテストのためのGlyphMM-benchmarkと、小規模テキスト領域における生成品質の評価のためのMiniText-benchmarkの2つの新しいベンチマークも導入した。
論文 参考訳(メタデータ) (2025-07-01T17:42:19Z) - Beyond Flat Text: Dual Self-inherited Guidance for Visual Text Generation [17.552733309504486]
現実のイメージでは、斜めまたは湾曲したテキスト、特に缶、バナー、バッジは、芸術的なデザインやレイアウトの制約により、平らなテキストのように頻繁に現れる。
難易度の高いシナリオで視覚テキストを正確に生成する新しいトレーニングフリーフレームワークSTGenを導入する。
論文 参考訳(メタデータ) (2025-01-10T11:44:59Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - A Parse-Then-Place Approach for Generating Graphic Layouts from Textual
Descriptions [50.469491454128246]
我々は、図形レイアウト、すなわちテキストからラベルへのレイアウトを作成するためのガイダンスとしてテキストを使用し、設計障壁を低くすることを目的としています。
テキストからラベルへの変換は、テキストからの暗黙的、複合的、不完全な制約を考慮する必要があるため、難しい作業である。
この問題に対処するための2段階のアプローチとして,パース・セイン・プレース(parse-then-place)を提案する。
論文 参考訳(メタデータ) (2023-08-24T10:37:00Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。