論文の概要: FonTS: Text Rendering with Typography and Style Controls
- arxiv url: http://arxiv.org/abs/2412.00136v1
- Date: Thu, 28 Nov 2024 16:19:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:18.816358
- Title: FonTS: Text Rendering with Typography and Style Controls
- Title(参考訳): FonTS: タイポグラフィとスタイルコントロールによるテキストレンダリング
- Authors: Wenda Shi, Yiren Song, Dengming Zhang, Jiaming Liu, Xingxing Zou,
- Abstract要約: 本稿では,テキストレンダリングにおけるタイポグラフィとスタイルの制御性を向上させるための2段階のDiTパイプラインを提案する。
タイポグラフィー制御(TC)ファインタニング,効率的なパラメータファインタニング法,およびタイポグラフィー制御トークン(ETCトークン)の囲い込みについて紹介する。
スタイル制御をさらに強化するために,テキストプロンプトに依存しない画像入力を通じてスタイル情報を注入するスタイル制御アダプタ(SCA)を提案する。
- 参考スコア(独自算出の注目度): 12.717568891224074
- License:
- Abstract: Visual text images are prevalent in various applications, requiring careful font selection and typographic choices. Recent advances in Diffusion Transformer (DiT)-based text-to-image (T2I) models show promise in automating these processes. However, these methods still face challenges such as inconsistent fonts, style variation, and limited fine-grained control, particularly at the word level. This paper proposes a two-stage DiT-based pipeline to address these issues by enhancing controllability over typography and style in text rendering. We introduce Typography Control (TC) finetuning, an efficient parameter fine-tuning method, and enclosing typography control tokens (ETC-tokens), which enable precise word-level application of typographic features. To further enhance style control, we present a Style Control Adapter (SCA) that injects style information through image inputs independent of text prompts. Through comprehensive experiments, we demonstrate the effectiveness of our approach in achieving superior word-level typographic control, font consistency, and style consistency in Basic and Artistic Text Rendering (BTR and ATR) tasks. Our results mark a significant advancement in the precision and adaptability of T2I models, presenting new possibilities for creative applications and design-oriented tasks.
- Abstract(参考訳): ビジュアルテキストイメージは様々なアプリケーションで広く使われており、フォントの選択やタイポグラフィの選択を慎重に行う必要がある。
Diffusion Transformer (DiT) ベースのテキスト・トゥ・イメージ(T2I)モデルの最近の進歩は、これらのプロセスを自動化する上で有望であることを示している。
しかし、これらの手法は、不整合フォント、スタイルのバリエーション、特に単語レベルでのきめ細かい制御の制限といった課題に直面している。
本稿では,テキストレンダリングにおけるタイポグラフィとスタイルの制御性を向上させることにより,これらの問題に対処する2段階のDiTパイプラインを提案する。
本稿では,Typography Control (TC)ファインタニング,パラメータファインタニング,Typography Control tokens (ETC-tokens)を導入し,タイポグラフィ特徴の正確な単語レベル適用を可能にした。
スタイル制御をさらに強化するために,テキストプロンプトに依存しない画像入力を通じてスタイル情報を注入するスタイル制御アダプタ(SCA)を提案する。
総合的な実験を通じて,基本テキストレンダリング(BTR,ATR)タスクにおいて,単語レベルのタイポグラフィ制御,フォントの整合性,スタイルの整合性を実現するためのアプローチの有効性を実証した。
この結果から,T2Iモデルの精度と適応性が大きく向上し,創造的アプリケーションやデザイン指向タスクに新たな可能性が示唆された。
関連論文リスト
- TextCtrl: Diffusion-based Scene Text Editing with Prior Guidance Control [5.3798706094384725]
テキストを事前の誘導制御で編集する拡散法であるTextCtrlを提案する。
i) きめ細かなテキストスタイルの不整合と頑健なテキスト構造表現を構築することにより、TextCtrlはモデル設計とネットワークトレーニングにスタイル構造ガイダンスを明示的に組み込んで、テキストスタイルの一貫性とレンダリング精度を大幅に向上させる。
実世界のSTE評価ベンチマークの空白を埋めるために、フェアな比較のためにScenePairと呼ばれる最初の実世界の画像ペアデータセットを作成します。
論文 参考訳(メタデータ) (2024-10-14T03:50:39Z) - FBSDiff: Plug-and-Play Frequency Band Substitution of Diffusion Features for Highly Controllable Text-Driven Image Translation [19.65838242227773]
本稿では,大規模テキスト・ツー・イメージ(T2I)拡散モデルとイメージ・ツー・イメージ(I2I)パラダイムをプラグ・アンド・プレイ方式で適用する,新しい,簡潔かつ効率的なアプローチを提案する。
本手法は,周波数帯域のタイプや帯域幅を調整するだけで,参照画像の導出係数と導出強度の両方を柔軟に制御できる。
論文 参考訳(メタデータ) (2024-08-02T04:13:38Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - Typographic Text Generation with Off-the-Shelf Diffusion Model [7.542892664684078]
本稿では,タイポグラフィのテキストを付加・修正するタイポグラフィテキスト生成システムを提案する。
提案システムは,拡散モデルのための2つのオフ・ザ・シェルフ法,ControlNetとBlended Latent Diffusionを組み合わせた新しいシステムである。
論文 参考訳(メタデータ) (2024-02-22T06:15:51Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - Improving Diffusion Models for Scene Text Editing with Dual Encoders [44.12999932588205]
シーンテキスト編集(Scene text editing)は、特定のテキストを画像に修正または挿入する作業である。
拡散モデルの最近の進歩は、これらの制限をテキスト条件による画像編集で克服することを約束している。
デュアルエンコーダ設計による事前学習拡散モデルを改善するためにDIFFSTEを提案する。
論文 参考訳(メタデータ) (2023-04-12T02:08:34Z) - Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文 参考訳(メタデータ) (2022-08-17T06:55:54Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - StylePTB: A Compositional Benchmark for Fine-grained Controllable Text
Style Transfer [90.6768813620898]
スタイル転送は、ソース文定数からコアの意味を維持しながら、ターゲットのスタイル変更を伴うテキストを制御的に生成することを目的としています。
テキストの原子語彙,構文,セマンティック,セマンティックトランスファーにまたがる21のきめ細かなスタイリスティックな文を含む大規模ベンチマークであるStylePTBを導入する。
StylePTBの既存のメソッドは、細かい変更をモデル化するのに苦労し、複数のスタイルを構成するのにさらに困難です。
論文 参考訳(メタデータ) (2021-04-12T04:25:09Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。