論文の概要: SE-GAN: Skeleton Enhanced GAN-based Model for Brush Handwriting Font
Generation
- arxiv url: http://arxiv.org/abs/2204.10484v1
- Date: Fri, 22 Apr 2022 03:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 13:02:16.440557
- Title: SE-GAN: Skeleton Enhanced GAN-based Model for Brush Handwriting Font
Generation
- Title(参考訳): SE-GAN: ブラシハンドライトフォント生成のための骨格強化GANモデル
- Authors: Shaozu Yuan, Ruixue Liu, Meng Chen, Baoyang Chen, Zhijie Qiu, Xiaodong
He
- Abstract要約: 筆書きフォント生成には 全体構造の変化と 複雑なストロークの転送が含まれる
骨格情報を統合した新しいGAN画像翻訳モデルを提案する。
また、6つのスタイルと15,000の高解像度画像を持つ大規模な筆書きフォント画像データセットをコントリビュートする。
- 参考スコア(独自算出の注目度): 17.06759966521758
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous works on font generation mainly focus on the standard print fonts
where character's shape is stable and strokes are clearly separated. There is
rare research on brush handwriting font generation, which involves holistic
structure changes and complex strokes transfer. To address this issue, we
propose a novel GAN-based image translation model by integrating the skeleton
information. We first extract the skeleton from training images, then design an
image encoder and a skeleton encoder to extract corresponding features. A
self-attentive refined attention module is devised to guide the model to learn
distinctive features between different domains. A skeleton discriminator is
involved to first synthesize the skeleton image from the generated image with a
pre-trained generator, then to judge its realness to the target one. We also
contribute a large-scale brush handwriting font image dataset with six styles
and 15,000 high-resolution images. Both quantitative and qualitative
experimental results demonstrate the competitiveness of our proposed model.
- Abstract(参考訳): フォント生成に関する以前の研究は、文字の形が安定し、ストロークが明確に分離された標準的な印刷フォントに焦点を当てていた。
全身構造の変化や複雑なストロークの伝達を伴う筆跡フォント生成に関する研究は稀である。
そこで,本稿では,骨格情報を統合した新しいgan画像翻訳モデルを提案する。
まず、トレーニング画像から骨格を抽出し、次に画像エンコーダと骨格エンコーダを設計し、対応する特徴を抽出する。
モデルを誘導し、異なるドメイン間の特徴を学習するために、自己注意モジュールが考案された。
骨格判別装置は、まず、生成された画像から予め訓練された発電機で骨格画像を合成し、その現実性を目標画像に判定する。
6つのスタイルと15,000の高解像度画像からなる大規模な筆跡手書きフォント画像データセットも提供しています。
定量的および定性的な実験結果は,提案モデルの競合性を示すものである。
関連論文リスト
- FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation [38.730628018627975]
本研究の目的は,多言語フォントにおけるテキストエフェクトの生成である。
与えられた形状を解釈できる新しい形状適応拡散モデルを提案する。
また、生成した参照文字から他へテクスチャを転送するための学習不要な形状適応型エフェクト転送手法を提案する。
論文 参考訳(メタデータ) (2024-06-12T16:43:47Z) - DeepCalliFont: Few-shot Chinese Calligraphy Font Synthesis by
Integrating Dual-modality Generative Models [20.76773399161289]
特に中国語のフォントのフォント生成は困難で、進行中の課題である。
本稿では,2つのモダリティ生成モデルを統合することで,数ショットの漢字フォント合成のための新しいモデルDeepCalliFontを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:23:12Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - DS-Fusion: Artistic Typography via Discriminated and Stylized Diffusion [10.75789076591325]
1つ以上の文字フォントをスタイリングすることで,芸術的タイポグラフィーを自動的に生成する新しい手法を提案する。
提案手法では,大規模言語モデルを用いてテキストや視覚画像をブリッジしてスタイリングし,教師なし生成モデルを構築する。
論文 参考訳(メタデータ) (2023-03-16T19:12:52Z) - Diff-Font: Diffusion Model for Robust One-Shot Font Generation [110.45944936952309]
Diff-Fontという拡散モデルに基づく新しいワンショットフォント生成手法を提案する。
提案するモデルは,フォントライブラリ全体を生成することを目的として,参照として1つのサンプルのみを与える。
十分に訓練されたDiff-Fontは、フォントギャップやフォントのバリエーションに対して堅牢であるだけでなく、難しい文字生成において有望なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-12-12T13:51:50Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z) - Font Completion and Manipulation by Cycling Between Multi-Modality
Representations [113.26243126754704]
中間表現としてグラフを用いた2次元グラフィックオブジェクトとしてフォントグリフの生成を探求する。
我々は、画像エンコーダと画像の間のグラフで、モダリティサイクルのイメージ・ツー・イメージ構造を定式化する。
本モデルでは,画像から画像までのベースラインと,それ以前のグリフ補完手法よりも改善された結果を生成する。
論文 参考訳(メタデータ) (2021-08-30T02:43:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。