論文の概要: WordCon: Word-level Typography Control in Scene Text Rendering
- arxiv url: http://arxiv.org/abs/2506.21276v1
- Date: Thu, 26 Jun 2025 14:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.11155
- Title: WordCon: Word-level Typography Control in Scene Text Rendering
- Title(参考訳): WordCon:シーンテキストレンダリングにおける単語レベルのタイポグラフィ制御
- Authors: Wenda Shi, Yiren Song, Zihan Rao, Dengming Zhang, Jiaming Liu, Xingxing Zou,
- Abstract要約: 単語レベルの制御されたシーンテキストデータセットを構築し,テキスト画像アライメントフレームワークを導入する。
また,ハイブリッドパラメータ効率細調整(PEFT)手法であるWordConを提案する。
データセットとソースコードは学術的に利用できる。
- 参考スコア(独自算出の注目度): 12.00205643907721
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Achieving precise word-level typography control within generated images remains a persistent challenge. To address it, we newly construct a word-level controlled scene text dataset and introduce the Text-Image Alignment (TIA) framework. This framework leverages cross-modal correspondence between text and local image regions provided by grounding models to enhance the Text-to-Image (T2I) model training. Furthermore, we propose WordCon, a hybrid parameter-efficient fine-tuning (PEFT) method. WordCon reparameterizes selective key parameters, improving both efficiency and portability. This allows seamless integration into diverse pipelines, including artistic text rendering, text editing, and image-conditioned text rendering. To further enhance controllability, the masked loss at the latent level is applied to guide the model to concentrate on learning the text region in the image, and the joint-attention loss provides feature-level supervision to promote disentanglement between different words. Both qualitative and quantitative results demonstrate the superiority of our method to the state of the art. The datasets and source code will be available for academic use.
- Abstract(参考訳): 生成画像内の単語レベルの正確なタイポグラフィー制御を実現することは、依然として永続的な課題である。
そこで我々は,単語レベルの制御されたシーンテキストデータセットを新たに構築し,テキスト画像アライメント(TIA)フレームワークを導入する。
このフレームワークは,テキスト・トゥ・イメージ(T2I)モデルのトレーニングを強化するために,グラウンドモデルによって提供されるテキストとローカル画像領域間の相互対応を利用する。
さらに,ハイブリッドパラメータ効率細調整(PEFT)手法であるWordConを提案する。
WordConは選択キーパラメータを再パラメータ化し、効率とポータビリティの両方を改善している。
これにより、芸術的なテキストレンダリング、テキスト編集、画像条件のテキストレンダリングなど、さまざまなパイプラインへのシームレスな統合が可能になる。
制御性をさらに向上するため、画像中のテキスト領域の学習に集中させるようモデルに誘導するために、潜時レベルのマスク付き損失を適用し、共同注意損失は、異なる単語間の絡み合いを促進する機能レベルの監督を提供する。
定性的かつ定量的な結果は,本手法の最先端性を示すものである。
データセットとソースコードは学術的に利用できる。
関連論文リスト
- SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild [55.619708995575785]
自然景観画像のテキストは、以下の4つの重要な基準を満たす必要がある。
生成されたテキストは、自然なシーンOCR(Optical Character Recognition)タスクのトレーニングを容易にする。
生成された画像は、テキスト検出やテキスト認識といったOCRタスクにおいて優れている。
論文 参考訳(メタデータ) (2025-01-06T12:09:08Z) - FonTS: Text Rendering with Typography and Style Controls [12.717568891224074]
本稿では,テキストレンダリングにおけるタイポグラフィとスタイルの制御性を向上させることで,この問題に対処する2段階のDiTパイプラインを提案する。
タイポグラフィ制御トークン(ETCトークン)を囲むパラメータ効率の良い微調整法であるTC-FTを導入する。
テキストレンダリングにおけるスタイルの不整合性に対処するため,スタイル整合性を高めつつコンテンツ漏洩を防止するテキスト非依存型スタイル制御アダプタ(SCA)を提案する。
論文 参考訳(メタデータ) (2024-11-28T16:19:37Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Layout-Bridging Text-to-Image Synthesis [20.261873143881573]
我々は、テキスト・ツー・イメージ生成とレイアウト・ツー・イメージ合成の両方において効果的なモデリングを推し進める。
入力テキストをレイアウト・ツー・イメージ合成プロセスに正確に組み込むために,レイアウト中のオブジェクトごとのテキスト・視覚的セマンティックアライメントを学習することに注力する。
論文 参考訳(メタデータ) (2022-08-12T08:21:42Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。