論文の概要: JoyType: A Robust Design for Multilingual Visual Text Creation
- arxiv url: http://arxiv.org/abs/2409.17524v1
- Date: Thu, 26 Sep 2024 04:23:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 23:06:47.873858
- Title: JoyType: A Robust Design for Multilingual Visual Text Creation
- Title(参考訳): JoyType: 多言語ビジュアルテキスト作成のためのロバスト設計
- Authors: Chao Li, Chen Jiang, Xiaolong Liu, Jun Zhao, Guoxin Wang,
- Abstract要約: 複数言語によるビジュアルテキスト作成のための新しい手法JoyTypeを紹介した。
JoyTypeは、画像生成プロセス中にテキストのフォントスタイルを維持するように設計されている。
実測値と精度の両面から評価した結果,JoyTypeが既存の最先端手法を著しく上回っていることがわかった。
- 参考スコア(独自算出の注目度): 14.441897362967344
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating images with accurately represented text, especially in non-Latin languages, poses a significant challenge for diffusion models. Existing approaches, such as the integration of hint condition diagrams via auxiliary networks (e.g., ControlNet), have made strides towards addressing this issue. However, diffusion models often fall short in tasks requiring controlled text generation, such as specifying particular fonts or producing text in small fonts. In this paper, we introduce a novel approach for multilingual visual text creation, named JoyType, designed to maintain the font style of text during the image generation process. Our methodology begins with assembling a training dataset, JoyType-1M, comprising 1 million pairs of data. Each pair includes an image, its description, and glyph instructions corresponding to the font style within the image. We then developed a text control network, Font ControlNet, tasked with extracting font style information to steer the image generation. To further enhance our model's ability to maintain font style, notably in generating small-font text, we incorporated a multi-layer OCR-aware loss into the diffusion process. This enhancement allows JoyType to direct text rendering using low-level descriptors. Our evaluations, based on both visual and accuracy metrics, demonstrate that JoyType significantly outperforms existing state-of-the-art methods. Additionally, JoyType can function as a plugin, facilitating the creation of varied image styles in conjunction with other stable diffusion models on HuggingFace and CivitAI. Our project is open-sourced on https://jdh-algo.github.io/JoyType/.
- Abstract(参考訳): 正確に表現されたテキストで画像を生成することは、特にラテン語以外の言語では拡散モデルにとって大きな課題となる。
補助ネットワーク(例えば、ControlNet)によるヒント条件図の統合など、既存のアプローチでは、この問題に対処する努力が続けられている。
しかし拡散モデルは、特定のフォントを指定したり、小さなフォントでテキストを生成するといった、制御されたテキスト生成を必要とするタスクにおいて不足することが多い。
本稿では,画像生成過程におけるテキストのフォントスタイルを維持するために,JoyTypeという,多言語視覚テキスト作成のための新しいアプローチを提案する。
当社の方法論は,100万組のデータからなるトレーニングデータセットであるJoyType-1Mを組み立てることから始まります。
各ペアは、画像内のフォントスタイルに対応する画像、その記述、グリフ命令を含む。
そこで我々はフォントスタイル情報を抽出して画像生成を支援するテキスト制御ネットワークFont ControlNetを開発した。
フォントスタイルの維持能力をさらに向上するため,我々は拡散過程に多層OCR認識損失を組み込んだ。
この拡張により、JoyTypeは低レベルのディスクリプタを使ってテキストレンダリングをダイレクトできる。
我々の評価は、視覚的および精度の両指標に基づいて、JoyTypeが既存の最先端の手法を大幅に上回っていることを示す。
さらに、JoyTypeはプラグインとして機能し、HuggingFaceやCivvitAI上の他の安定した拡散モデルとともに、さまざまなイメージスタイルの作成を容易にする。
私たちのプロジェクトはhttps://jdh-algo.github.io/JoyType/でオープンソース化されています。
関連論文リスト
- CustomText: Customized Textual Image Generation using Diffusion Models [13.239661107392324]
テキスト画像生成は、広告、教育、製品パッケージング、ソーシャルメディア、情報視覚化、ブランディングといった様々な分野にまたがる。
拡散モデルを用いた言語誘導画像合成における最近の進歩にもかかわらず、現在のモデルは画像生成に優れ、正確なテキストレンダリングに苦慮し、フォント属性の限定的な制御を提供する。
本稿では,高精度なテキストカスタマイズによる高品質な画像合成の実現を目標とし,画像生成モデルの進歩に寄与する。
論文 参考訳(メタデータ) (2024-05-21T06:43:03Z) - FontDiffuser: One-Shot Font Generation via Denoising Diffusion with
Multi-Scale Content Aggregation and Style Contrastive Learning [45.696909070215476]
FontDiffuserは拡散に基づく画像から画像へのワンショットフォント生成手法である。
従来の方法と比較して、複雑な文字と大きなスタイルの変更を一貫して排他的に引き継いでいる。
論文 参考訳(メタデータ) (2023-12-19T13:23:20Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - CF-Font: Content Fusion for Few-shot Font Generation [63.79915037830131]
本稿では、コンテンツ特徴をベースフォントのコンテンツ特徴によって定義される線形空間に投影するコンテンツ融合モジュール(CFM)を提案する。
提案手法では,参照画像のスタイル表現ベクトルの最適化も可能である。
我々は,6.5k文字の300フォントのデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2023-03-24T14:18:40Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - DGFont++: Robust Deformable Generative Networks for Unsupervised Font
Generation [19.473023811252116]
教師なしフォント生成のための頑健な変形可能な生成ネットワークを提案する(略してDGFont++)。
異なるスタイルを区別するために、我々はマルチタスク判別器を用いてモデルを訓練し、それぞれのスタイルを独立して識別できるようにした。
実験により,本モデルは最先端手法よりも高品質なキャラクタ画像を生成することができることが示された。
論文 参考訳(メタデータ) (2022-12-30T14:35:10Z) - Diff-Font: Diffusion Model for Robust One-Shot Font Generation [110.45944936952309]
Diff-Fontという拡散モデルに基づく新しいワンショットフォント生成手法を提案する。
提案するモデルは,フォントライブラリ全体を生成することを目的として,参照として1つのサンプルのみを与える。
十分に訓練されたDiff-Fontは、フォントギャップやフォントのバリエーションに対して堅牢であるだけでなく、難しい文字生成において有望なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-12-12T13:51:50Z) - Font Completion and Manipulation by Cycling Between Multi-Modality
Representations [113.26243126754704]
中間表現としてグラフを用いた2次元グラフィックオブジェクトとしてフォントグリフの生成を探求する。
我々は、画像エンコーダと画像の間のグラフで、モダリティサイクルのイメージ・ツー・イメージ構造を定式化する。
本モデルでは,画像から画像までのベースラインと,それ以前のグリフ補完手法よりも改善された結果を生成する。
論文 参考訳(メタデータ) (2021-08-30T02:43:29Z) - DG-Font: Deformable Generative Networks for Unsupervised Font Generation [14.178381391124036]
非監視フォント生成(DGFont)のための新しい変形可能な生成ネットワークを提案する。
本稿では,一対の変位マップを予測し,予測地図を用いてコンテンツエンコーダからの低レベル特徴マップに変形可能な畳み込みを適用する特徴変形スキップ接続(fdsc)を提案する。
実験により,本モデルが最先端手法よりも高品質な文字を生成することを実証した。
論文 参考訳(メタデータ) (2021-04-07T11:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。