論文の概要: TextCenGen: Attention-Guided Text-Centric Background Adaptation for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2404.11824v1
- Date: Thu, 18 Apr 2024 01:10:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 13:20:47.873823
- Title: TextCenGen: Attention-Guided Text-Centric Background Adaptation for Text-to-Image Generation
- Title(参考訳): TextCenGen: テキスト-画像生成のための注意ガイド付きテキスト-中心背景適応
- Authors: Tianyi Liang, Jiangqi Liu, Sicheng Song, Shiqi Jiang, Yifei Huang, Changbo Wang, Chenhui Li,
- Abstract要約: Text-to-image (T2I) 世代は、テキストの適応から固定背景へのシフトを目撃している。
提案手法であるTextCenGenでは,テキストフレンドリーな画像生成のための空白領域の動的適応を導入している。
提案手法では,T2Iモデルにおいて,予め定義されたテキスト領域のホワイトスペースを戦略的に保留する画像を生成するために,力による注意誘導を用いる。
- 参考スコア(独自算出の注目度): 22.428046972339896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Text-to-image (T2I) generation have witnessed a shift from adapting text to fixed backgrounds to creating images around text. Traditional approaches are often limited to generate layouts within static images for effective text placement. Our proposed approach, TextCenGen, introduces a dynamic adaptation of the blank region for text-friendly image generation, emphasizing text-centric design and visual harmony generation. Our method employs force-directed attention guidance in T2I models to generate images that strategically reserve whitespace for pre-defined text areas, even for text or icons at the golden ratio. Observing how cross-attention maps affect object placement, we detect and repel conflicting objects using a force-directed graph approach, combined with a Spatial Excluding Cross-Attention Constraint for smooth attention in whitespace areas. As a novel task in graphic design, experiments indicate that TextCenGen outperforms existing methods with more harmonious compositions. Furthermore, our method significantly enhances T2I model outcomes on our specially collected prompt datasets, catering to varied text positions. These results demonstrate the efficacy of TextCenGen in creating more harmonious and integrated text-image compositions.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成の最近の進歩は、テキストの適応から固定背景へのシフトを目撃している。
従来のアプローチは、テキストの配置を効果的にするために静的なイメージ内でレイアウトを生成するために制限されることが多い。
提案手法であるTextCenGenは,テキスト中心の設計と視覚調和生成を重視した,テキストフレンドリーな画像生成のための空白領域の動的適応を導入している。
本手法では,T2Iモデルにおいて,テキストやアイコンの黄金比であっても,予め定義されたテキスト領域に対して,ホワイトスペースを戦略的に保留する画像を生成する。
クロスアテンションマップが物体の配置にどのように影響するかを観察し、力によるグラフアプローチを用いて衝突する物体を検出し、退避させ、空間的排他的制約と組み合わせて、白地におけるスムーズな注意を喚起する。
グラフィックデザインにおける新しいタスクとして、TextCenGenは、より調和した構成で既存のメソッドよりも優れています。
さらに,本手法は,テキスト位置の異なる特別に収集したプロンプトデータセットにおいて,T2Iモデルの結果を大幅に向上させる。
これらの結果は、より調和し統合されたテキストイメージの合成におけるTextCenGenの有効性を示す。
関連論文リスト
- First Creating Backgrounds Then Rendering Texts: A New Paradigm for Visual Text Blending [5.3798706094384725]
背景作成とテキストのレンダリングの両方を含む新しいビジュアルテキストブレンディングパラダイムを提案する。
具体的には、背景生成装置を開発し、高忠実でテキストフリーな自然画像を生成する。
また,シーンテキスト検出のためのシーンテキストデータセット合成など,本手法に基づくダウンストリームアプリケーションについても検討する。
論文 参考訳(メタデータ) (2024-10-14T05:23:43Z) - Visual Text Generation in the Wild [67.37458807253064]
野生で高品質なテキスト画像を生成する視覚テキスト生成装置(SceneVTG)を提案する。
提案したSceneVTGは、従来のレンダリングに基づく手法と最近の拡散に基づく手法を、忠実さと理性の観点から大きく上回っている。
生成された画像は、テキスト検出とテキスト認識を含むタスクに優れたユーティリティを提供する。
論文 参考訳(メタデータ) (2024-07-19T09:08:20Z) - Typographic Text Generation with Off-the-Shelf Diffusion Model [7.542892664684078]
本稿では,タイポグラフィのテキストを付加・修正するタイポグラフィテキスト生成システムを提案する。
提案システムは,拡散モデルのための2つのオフ・ザ・シェルフ法,ControlNetとBlended Latent Diffusionを組み合わせた新しいシステムである。
論文 参考訳(メタデータ) (2024-02-22T06:15:51Z) - Brush Your Text: Synthesize Any Scene Text on Images via Diffusion Model [31.819060415422353]
Diff-Textは、任意の言語のためのトレーニング不要のシーンテキスト生成フレームワークである。
本手法は, テキスト認識の精度と, 前景と後景のブレンディングの自然性の両方において, 既存の手法よりも優れる。
論文 参考訳(メタデータ) (2023-12-19T15:18:40Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text
Retrieval [142.047662926209]
本稿では,StyleGAN2モデルの隠れセマンティック情報を明らかにすることによって,ペアデータ拡張のための新しいフレームワークを提案する。
ランダムなトークン置換によって拡張テキストを生成し、拡張テキストを潜在空間アライメントモジュールに渡す。
我々は,2つのパブリックなクロスモーダル検索データセットに対する拡張データアプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-07-29T01:21:54Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。