論文の概要: FontTransformer: Few-shot High-resolution Chinese Glyph Image Synthesis
via Stacked Transformers
- arxiv url: http://arxiv.org/abs/2210.06301v2
- Date: Thu, 13 Oct 2022 02:53:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 11:35:43.792497
- Title: FontTransformer: Few-shot High-resolution Chinese Glyph Image Synthesis
via Stacked Transformers
- Title(参考訳): fonttransformer: 積み重ねトランスフォーマーによる中国の高分解能グリフ画像合成
- Authors: Yitian Liu, Zhouhui Lian
- Abstract要約: 本稿では,高精度な中国語グリフ画像合成のための新しい数ショット学習モデルであるFontTransformerを提案する。
また、よりグリフ情報と事前知識をモデルに供給する新しい符号化方式を設計する。
- 参考スコア(独自算出の注目度): 21.705680113996742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic generation of high-quality Chinese fonts from a few online training
samples is a challenging task, especially when the amount of samples is very
small. Existing few-shot font generation methods can only synthesize
low-resolution glyph images that often possess incorrect topological structures
or/and incomplete strokes. To address the problem, this paper proposes
FontTransformer, a novel few-shot learning model, for high-resolution Chinese
glyph image synthesis by using stacked Transformers. The key idea is to apply
the parallel Transformer to avoid the accumulation of prediction errors and
utilize the serial Transformer to enhance the quality of synthesized strokes.
Meanwhile, we also design a novel encoding scheme to feed more glyph
information and prior knowledge to our model, which further enables the
generation of high-resolution and visually-pleasing glyph images. Both
qualitative and quantitative experimental results demonstrate the superiority
of our method compared to other existing approaches in the few-shot Chinese
font synthesis task.
- Abstract(参考訳): オンライントレーニングサンプルから高品質な中国語フォントの自動生成は、特にサンプル数が非常に少ない場合には難しい課題である。
既存の少数ショットフォント生成手法では、不正確な位相構造や不完全なストロークを持つ低解像度のグリフ画像のみを合成できる。
そこで本研究では,階層化トランスフォーマーを用いた中国語グリフ画像合成のための新しい数ショット学習モデルであるFontTransformerを提案する。
鍵となるアイデアは、予測誤差の蓄積を避けるために並列トランスを適用し、合成ストロークの品質を高めるためにシリアルトランスを利用することである。
また,より高度なグリフ情報と事前知識をモデルに供給する新しい符号化方式を設計し,より高解像度で視覚的なグリフ画像の生成を可能にする。
数発の中国語フォント合成タスクにおける他のアプローチと比較して,定性的および定量的な実験結果は,本手法の優位性を示している。
関連論文リスト
- HFH-Font: Few-shot Chinese Font Synthesis with Higher Quality, Faster Speed, and Higher Resolution [17.977410216055024]
HFH-Fontは高解像度のグリフ画像を効率よく生成できる数ショットフォント合成法である。
プロのフォントデザイナーが手作業で作成したフォントに匹敵する品質の大規模な中国語のベクトルフォントを、初めて自動生成することができる。
論文 参考訳(メタデータ) (2024-10-09T02:30:24Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - DeepCalliFont: Few-shot Chinese Calligraphy Font Synthesis by
Integrating Dual-modality Generative Models [20.76773399161289]
特に中国語のフォントのフォント生成は困難で、進行中の課題である。
本稿では,2つのモダリティ生成モデルを統合することで,数ショットの漢字フォント合成のための新しいモデルDeepCalliFontを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:23:12Z) - VQ-Font: Few-Shot Font Generation with Structure-Aware Enhancement and
Quantization [52.870638830417]
本稿では,VQGANベースのフレームワーク(VQ-Font)を提案する。
具体的には、コードブック内でフォントトークンをカプセル化するために、VQGANを事前訓練する。その後、VQ-Fontは、合成したグリフをコードブックで洗練し、合成されたストロークと実世界のストロークのドメインギャップをなくす。
論文 参考訳(メタデータ) (2023-08-27T06:32:20Z) - DeepVecFont-v2: Exploiting Transformers to Synthesize Vector Fonts with
Higher Quality [38.32966391626858]
本稿では,ベクトルフォント合成のためのDeepVecFontの拡張版を提案する。
RNNの代わりにTransformerを採用して逐次データ処理を行い、ベクトルアウトラインの緩和表現を設計する。
また,生成したB'ezier曲線や線を正確に整列する制御点に加えて,補助点のサンプリングも提案する。
論文 参考訳(メタデータ) (2023-03-25T23:28:19Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - XMP-Font: Self-Supervised Cross-Modality Pre-training for Few-Shot Font
Generation [13.569449355929574]
本稿では,自己教師型クロスモダリティ事前学習戦略とクロスモダリティトランスフォーマーを用いたエンコーダを提案する。
エンコーダは、グリフ画像と対応するストロークラベルとを共同で条件付けする。
1つの参照グリフしか必要とせず、2番目のベストよりも28%低い数ショットフォント生成タスクにおいて、悪いケースの最低率を達成する。
論文 参考訳(メタデータ) (2022-04-11T13:34:40Z) - DeepVecFont: Synthesizing High-quality Vector Fonts via Dual-modality
Learning [21.123297001902177]
本稿では,ベクトルグリフを生成するための新しい手法であるDeepVecFontを提案する。
まず、フォントのイメージ・アスペクトとシーケンス・アスペクトの両特徴を利用してベクトルグリフを合成する双対モダリティ学習戦略を設計する。
第2に、非構造化データ(例えばベクトルグリフ)をランダムにサンプリングして、生成した構造化データのガイダンスの下でさらに洗練された最適なデータを得る、新しい生成パラダイムを提供する。
論文 参考訳(メタデータ) (2021-10-13T12:57:19Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z) - A Multi-Implicit Neural Representation for Fonts [79.6123184198301]
エッジやコーナーのようなフォント固有の不連続性は、ニューラルネットワークを使って表現することが難しい。
そこで我々は,フォントを文順に表現するためのtextitmulti-implicitsを導入する。
論文 参考訳(メタデータ) (2021-06-12T21:40:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。