論文の概要: XMP-Font: Self-Supervised Cross-Modality Pre-training for Few-Shot Font
Generation
- arxiv url: http://arxiv.org/abs/2204.05084v1
- Date: Mon, 11 Apr 2022 13:34:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 16:51:00.973650
- Title: XMP-Font: Self-Supervised Cross-Modality Pre-training for Few-Shot Font
Generation
- Title(参考訳): XMP-Font:Few-Shot Font生成のための自己監督型クロスモダリティ事前トレーニング
- Authors: Wei Liu, Fangyue Liu, Fei Din, Qian He, Zili Yi
- Abstract要約: 本稿では,自己教師型クロスモダリティ事前学習戦略とクロスモダリティトランスフォーマーを用いたエンコーダを提案する。
エンコーダは、グリフ画像と対応するストロークラベルとを共同で条件付けする。
1つの参照グリフしか必要とせず、2番目のベストよりも28%低い数ショットフォント生成タスクにおいて、悪いケースの最低率を達成する。
- 参考スコア(独自算出の注目度): 13.569449355929574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating a new font library is a very labor-intensive and time-consuming
job for glyph-rich scripts. Few-shot font generation is thus required, as it
requires only a few glyph references without fine-tuning during test. Existing
methods follow the style-content disentanglement paradigm and expect novel
fonts to be produced by combining the style codes of the reference glyphs and
the content representations of the source. However, these few-shot font
generation methods either fail to capture content-independent style
representations, or employ localized component-wise style representations,
which is insufficient to model many Chinese font styles that involve
hyper-component features such as inter-component spacing and
"connected-stroke". To resolve these drawbacks and make the style
representations more reliable, we propose a self-supervised cross-modality
pre-training strategy and a cross-modality transformer-based encoder that is
conditioned jointly on the glyph image and the corresponding stroke labels. The
cross-modality encoder is pre-trained in a self-supervised manner to allow
effective capture of cross- and intra-modality correlations, which facilitates
the content-style disentanglement and modeling style representations of all
scales (stroke-level, component-level and character-level). The pre-trained
encoder is then applied to the downstream font generation task without
fine-tuning. Experimental comparisons of our method with state-of-the-art
methods demonstrate our method successfully transfers styles of all scales. In
addition, it only requires one reference glyph and achieves the lowest rate of
bad cases in the few-shot font generation task 28% lower than the second best
- Abstract(参考訳): 新しいフォントライブラリを生成することは、glyphに富んだスクリプトに対して非常に労力と時間を要する作業である。
そのため、テスト中に微調整なしでグリフ参照を数回必要とするため、フォント生成がほとんど必要となる。
既存の手法はスタイル・コンテンツ・アンタングルのパラダイムに従っており、参照グリフのスタイルコードとソースのコンテンツ表現を組み合わせることで新しいフォントが生成されることを期待している。
しかし、これらの少数ショットフォント生成手法は、コンテンツ非依存のスタイル表現をキャプチャできないか、あるいは、コンポーネント間間隔や「接続ストローク」のようなハイパーコンポーネント機能を含む多くの中国フォントスタイルをモデル化するには不十分な、局所的なコンポーネントワイドスタイル表現を使用するかのいずれかである。
これらの欠点を解消し, スタイル表現をより信頼性の高いものにするため, グリフ画像と対応するストロークラベルを併用した自己教師型クロスモダリティ事前学習戦略と, クロスモダリティトランスフォーマーベースのエンコーダを提案する。
クロスモダリティエンコーダは、すべてのスケール(ストロークレベル、コンポーネントレベル、キャラクタレベル)のコンテントスタイルのディスタングルメントおよびモデリングスタイル表現を容易にするクロスモダリティ相関を効果的に捉えるために、自己教師付きで事前訓練されている。
事前訓練されたエンコーダは、微調整なしで下流フォント生成タスクに適用される。
提案手法と最先端手法との実験的比較により,全スケールのスタイルの転送に成功した。
さらに、参照グリフは1つしか必要とせず、第2のベストより28%低いマイショットフォント生成タスクで最悪のケースの最低レートを達成する。
関連論文リスト
- DeepCalliFont: Few-shot Chinese Calligraphy Font Synthesis by
Integrating Dual-modality Generative Models [20.76773399161289]
特に中国語のフォントのフォント生成は困難で、進行中の課題である。
本稿では,2つのモダリティ生成モデルを統合することで,数ショットの漢字フォント合成のための新しいモデルDeepCalliFontを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:23:12Z) - Few shot font generation via transferring similarity guided global style
and quantization local style [11.817299400850176]
文字類似性に基づくグローバル特徴とスタイル化コンポーネントレベルの表現からスタイルを集約する新しいフォント生成手法を提案する。
我々のAFFG法は、コンポーネントレベルの表現の完全なセットを得ることができ、また、グローバルなグリフ特性を制御できる。
論文 参考訳(メタデータ) (2023-09-02T05:05:40Z) - VQ-Font: Few-Shot Font Generation with Structure-Aware Enhancement and
Quantization [52.870638830417]
本稿では,VQGANベースのフレームワーク(VQ-Font)を提案する。
具体的には、コードブック内でフォントトークンをカプセル化するために、VQGANを事前訓練する。その後、VQ-Fontは、合成したグリフをコードブックで洗練し、合成されたストロークと実世界のストロークのドメインギャップをなくす。
論文 参考訳(メタデータ) (2023-08-27T06:32:20Z) - Diff-Font: Diffusion Model for Robust One-Shot Font Generation [110.45944936952309]
Diff-Fontという拡散モデルに基づく新しいワンショットフォント生成手法を提案する。
提案するモデルは,フォントライブラリ全体を生成することを目的として,参照として1つのサンプルのみを与える。
十分に訓練されたDiff-Fontは、フォントギャップやフォントのバリエーションに対して堅牢であるだけでなく、難しい文字生成において有望なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-12-12T13:51:50Z) - Few-Shot Font Generation by Learning Fine-Grained Local Styles [90.39288370855115]
フラッシュショットフォント生成(FFG)は、いくつかの例で新しいフォントを生成することを目的としている。
提案手法は,1)参照からきめ細かな局所スタイルを学習し,2)コンテンツと参照グリフの空間的対応を学習するフォント生成手法である。
論文 参考訳(メタデータ) (2022-05-20T05:07:05Z) - Few-shot Font Generation with Weakly Supervised Localized
Representations [17.97183447033118]
ユニバーサルなスタイルではなく,局所的なスタイル,すなわちコンポーネントワイドなスタイル表現を学習する新しいフォント生成手法を提案する。
提案手法は,他の最先端手法よりも極めて優れたフォント生成結果(参照グリフが8つしかない)を示す。
論文 参考訳(メタデータ) (2021-12-22T14:26:53Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z) - Font Completion and Manipulation by Cycling Between Multi-Modality
Representations [113.26243126754704]
中間表現としてグラフを用いた2次元グラフィックオブジェクトとしてフォントグリフの生成を探求する。
我々は、画像エンコーダと画像の間のグラフで、モダリティサイクルのイメージ・ツー・イメージ構造を定式化する。
本モデルでは,画像から画像までのベースラインと,それ以前のグリフ補完手法よりも改善された結果を生成する。
論文 参考訳(メタデータ) (2021-08-30T02:43:29Z) - A Multi-Implicit Neural Representation for Fonts [79.6123184198301]
エッジやコーナーのようなフォント固有の不連続性は、ニューラルネットワークを使って表現することが難しい。
そこで我々は,フォントを文順に表現するためのtextitmulti-implicitsを導入する。
論文 参考訳(メタデータ) (2021-06-12T21:40:11Z) - Few-shot Font Generation with Localized Style Representations and
Factorization [23.781619323447003]
ユニバーサルスタイルの代わりに,局所化スタイル,すなわちコンポーネントワイドスタイル表現を学習し,新しいフォント生成手法を提案する。
提案手法は,8つの基準グリフ画像しか持たない少数のフォント生成結果が,他の最先端のフォントよりも著しく優れていることを示す。
論文 参考訳(メタデータ) (2020-09-23T10:33:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。