論文の概要: FontUse: A Data-Centric Approach to Style- and Use-Case-Conditioned In-Image Typography
- arxiv url: http://arxiv.org/abs/2603.06038v1
- Date: Fri, 06 Mar 2026 08:47:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.392695
- Title: FontUse: A Data-Centric Approach to Style- and Use-Case-Conditioned In-Image Typography
- Title(参考訳): FontUse: スタイルとユースケースを規定したインイメージタイポグラフィーへのデータ中心的アプローチ
- Authors: Xia Xin, Yuki Endo, Yoshihiro Kanamori,
- Abstract要約: 我々は、タイポグラフィーに特化した構造化アノテーションパイプラインから誘導されるターゲットインスペクションを用いて、画像生成モデルを訓練する。
当社のパイプラインでは,ユーザフレンドリーなプロンプトを付加した約70Kイメージからなる,大規模なタイポグラフィー中心のデータセットであるFontUseを構築している。
評価のために、生成したタイポグラフィーと要求属性のアライメントを測定するLong-CLIPベースのメトリクスを導入する。
- 参考スコア(独自算出の注目度): 5.862480696321742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-image models can generate high-quality images from natural-language prompts, yet controlling typography remains challenging: requested typographic appearance is often ignored or only weakly followed. We address this limitation with a data-centric approach that trains image generation models using targeted supervision derived from a structured annotation pipeline specialized for typography. Our pipeline constructs a large-scale typography-focused dataset, FontUse, consisting of about 70K images annotated with user-friendly prompts, text-region locations, and OCR-recognized strings. The annotations are automatically produced using segmentation models and multimodal large language models (MLLMs). The prompts explicitly combine font styles (e.g., serif, script, elegant) and use cases (e.g., wedding invitations, coffee-shop menus), enabling intuitive specification even for novice users. Fine-tuning existing generators with these annotations allows them to consistently interpret style and use-case conditions as textual prompts without architectural modification. For evaluation, we introduce a Long-CLIP-based metric that measures alignment between generated typography and requested attributes. Experiments across diverse prompts and layouts show that models trained with our pipeline produce text renderings more consistent with prompts than competitive baselines. The source code for our annotation pipeline is available at https://github.com/xiaxinz/FontUSE.
- Abstract(参考訳): 最近のテキスト・ツー・イメージモデルでは、自然言語のプロンプトから高品質な画像を生成することができるが、タイポグラフィーの制御は依然として難しい。
この制限を,タイポグラフィに特化した構造的アノテーションパイプラインをベースとした,画像生成モデルを訓練するデータ中心型アプローチで解決する。
当社のパイプラインは,ユーザフレンドリなプロンプト,テキストリージョン位置,OCR認識文字列を付加した約70Kイメージからなる,大規模なタイポグラフィー中心のデータセットであるFontUseを構築している。
アノテーションはセグメンテーションモデルとマルチモーダル大言語モデル(MLLM)を使用して自動生成される。
このプロンプトはフォントスタイル(例、セリフ、スクリプト、エレガント)とユースケース(例、結婚式の招待状、コーヒーショップメニュー)を明示的に組み合わせ、初心者でも直感的な仕様を実現できる。
これらのアノテーションで既存のジェネレータを微調整することで、アーキテクチャの変更なしに、スタイルやユースケースの条件をテキストプロンプトとして一貫して解釈することができる。
評価のために、生成したタイポグラフィーと要求属性のアライメントを測定するLong-CLIPベースのメトリクスを導入する。
さまざまなプロンプトとレイアウトの実験では、パイプラインでトレーニングされたモデルが、競合するベースラインよりもプロンプトとより一貫性のあるテキストレンダリングを生成することが示されています。
アノテーションパイプラインのソースコードはhttps://github.com/xiaxinz/FontUSE.orgで公開されている。
関連論文リスト
- JoyType: A Robust Design for Multilingual Visual Text Creation [14.441897362967344]
複数言語によるビジュアルテキスト作成のための新しい手法JoyTypeを紹介した。
JoyTypeは、画像生成プロセス中にテキストのフォントスタイルを維持するように設計されている。
実測値と精度の両面から評価した結果,JoyTypeが既存の最先端手法を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-09-26T04:23:17Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - CapText: Large Language Model-based Caption Generation From Image
Context and Description [0.0]
テキスト記述と文脈のみからキャプションを生成する新しいアプローチを提案し,評価する。
提案手法は,OSCAR-VinVL などの最先端画像テキストアライメントモデルにおいて,CIDEr メトリック上でのタスクにおいて優れる。
論文 参考訳(メタデータ) (2023-06-01T02:40:44Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - DG-Font: Deformable Generative Networks for Unsupervised Font Generation [14.178381391124036]
非監視フォント生成(DGFont)のための新しい変形可能な生成ネットワークを提案する。
本稿では,一対の変位マップを予測し,予測地図を用いてコンテンツエンコーダからの低レベル特徴マップに変形可能な畳み込みを適用する特徴変形スキップ接続(fdsc)を提案する。
実験により,本モデルが最先端手法よりも高品質な文字を生成することを実証した。
論文 参考訳(メタデータ) (2021-04-07T11:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。