論文の概要: Look Closer to Supervise Better: One-Shot Font Generation via
Component-Based Discriminator
- arxiv url: http://arxiv.org/abs/2205.00146v1
- Date: Sat, 30 Apr 2022 03:41:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 15:24:27.830190
- Title: Look Closer to Supervise Better: One-Shot Font Generation via
Component-Based Discriminator
- Title(参考訳): 改善に近づいた:コンポーネントベース識別器によるワンショットフォント生成
- Authors: Yuxin Kong, Canjie Luo, Weihong Ma, Qiyuan Zhu, Shenggao Zhu, Nicholas
Yuan, Lianwen Jin
- Abstract要約: よりきめ細かいレベルでコンテンツとスタイルを分離するためのジェネレータを監督する新しいコンポーネント・アウェア・モジュール(CAM)を提案する。
提案手法は,最先端のワンショットフォント生成手法より優れている。
手書きの単語合成やシーンテキストの編集にも応用できる。
- 参考スコア(独自算出の注目度): 28.325133809296464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic font generation remains a challenging research issue due to the
large amounts of characters with complicated structures. Typically, only a few
samples can serve as the style/content reference (termed few-shot learning),
which further increases the difficulty to preserve local style patterns or
detailed glyph structures. We investigate the drawbacks of previous studies and
find that a coarse-grained discriminator is insufficient for supervising a font
generator. To this end, we propose a novel Component-Aware Module (CAM), which
supervises the generator to decouple content and style at a more fine-grained
level, \textit{i.e.}, the component level. Different from previous studies
struggling to increase the complexity of generators, we aim to perform more
effective supervision for a relatively simple generator to achieve its full
potential, which is a brand new perspective for font generation. The whole
framework achieves remarkable results by coupling component-level supervision
with adversarial learning, hence we call it Component-Guided GAN, shortly
CG-GAN. Extensive experiments show that our approach outperforms
state-of-the-art one-shot font generation methods. Furthermore, it can be
applied to handwritten word synthesis and scene text image editing, suggesting
the generalization of our approach.
- Abstract(参考訳): 複雑な構造を持つ大量の文字のため、自動フォント生成はいまだに困難な研究課題である。
典型的には、少数のサンプルのみがスタイル/コンテンツ参照として機能し、局所的なスタイルパターンや詳細なグリフ構造を維持するのがさらに困難になる。
過去の研究の欠点を考察し,フォントジェネレータを監督するには粗粒度判別器が不十分であることを示す。
この目的のために、我々は、コンポーネントレベルであるよりきめ細かいレベルでコンテンツとスタイルを分離するジェネレータを監督する新しいComponent-Aware Module (CAM)を提案する。
ジェネレータの複雑さの増大に苦しむこれまでの研究とは異なり、我々は比較的単純なジェネレータの完全な可能性を達成するためにより効果的な監督を行うことを目標としている。
フレームワーク全体では,コンポーネントレベルの監視と逆学習を結合することで,優れた結果が得られる。
広範な実験により,我々のアプローチは最先端のワンショットフォント生成手法よりも優れていることが示された。
さらに,手書きの単語合成やテキスト画像編集にも適用可能であり,このアプローチの一般化を示唆する。
関連論文リスト
- Skeleton and Font Generation Network for Zero-shot Chinese Character Generation [53.08596064763731]
そこで我々は,より堅牢な漢字フォント生成を実現するために,新しいSkeleton and Font Generation Network (SFGN)を提案する。
ミススペル文字について実験を行い、その大部分は共通文字とわずかに異なる。
提案手法は、生成した画像の有効性を視覚的に実証し、現在最先端のフォント生成方法より優れていることを示す。
論文 参考訳(メタデータ) (2025-01-14T12:15:49Z) - Decoupling Layout from Glyph in Online Chinese Handwriting Generation [6.566541829858544]
テキスト行レイアウト生成器とスタイル化フォント合成器を開発した。
レイアウトジェネレータは、テキスト内容と提供されたスタイル参照に基づいて、コンテキスト内学習を行い、各グリフに対する位置を自己回帰的に生成する。
文字埋め込み辞書、マルチスケールの書体スタイルエンコーダ、及び1DのU-Netベースの拡散デノイザからなるフォントシンセサイザは、所定のスタイル参照から抽出された書体スタイルを模倣しつつ、その位置に各フォントを生成する。
論文 参考訳(メタデータ) (2024-10-03T08:46:17Z) - VQ-Font: Few-Shot Font Generation with Structure-Aware Enhancement and
Quantization [52.870638830417]
本稿では,VQGANベースのフレームワーク(VQ-Font)を提案する。
具体的には、コードブック内でフォントトークンをカプセル化するために、VQGANを事前訓練する。その後、VQ-Fontは、合成したグリフをコードブックで洗練し、合成されたストロークと実世界のストロークのドメインギャップをなくす。
論文 参考訳(メタデータ) (2023-08-27T06:32:20Z) - Learning Generative Structure Prior for Blind Text Image
Super-resolution [153.05759524358467]
我々は、キャラクター構造にもっと焦点をあてた小説を提示する。
StyleGANの生成空間を制限するため、各文字の離散的な特徴をコードブックに格納する。
提案した構造は, 従来より強い文字特異的指導を行い, 指定された文字の忠実で正確なストロークを復元する。
論文 参考訳(メタデータ) (2023-03-26T13:54:28Z) - Diff-Font: Diffusion Model for Robust One-Shot Font Generation [110.45944936952309]
Diff-Fontという拡散モデルに基づく新しいワンショットフォント生成手法を提案する。
提案するモデルは,フォントライブラリ全体を生成することを目的として,参照として1つのサンプルのみを与える。
十分に訓練されたDiff-Fontは、フォントギャップやフォントのバリエーションに対して堅牢であるだけでなく、難しい文字生成において有望なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-12-12T13:51:50Z) - Few-Shot Font Generation by Learning Fine-Grained Local Styles [90.39288370855115]
フラッシュショットフォント生成(FFG)は、いくつかの例で新しいフォントを生成することを目的としている。
提案手法は,1)参照からきめ細かな局所スタイルを学習し,2)コンテンツと参照グリフの空間的対応を学習するフォント生成手法である。
論文 参考訳(メタデータ) (2022-05-20T05:07:05Z) - XMP-Font: Self-Supervised Cross-Modality Pre-training for Few-Shot Font
Generation [13.569449355929574]
本稿では,自己教師型クロスモダリティ事前学習戦略とクロスモダリティトランスフォーマーを用いたエンコーダを提案する。
エンコーダは、グリフ画像と対応するストロークラベルとを共同で条件付けする。
1つの参照グリフしか必要とせず、2番目のベストよりも28%低い数ショットフォント生成タスクにおいて、悪いケースの最低率を達成する。
論文 参考訳(メタデータ) (2022-04-11T13:34:40Z) - Few-shot Font Generation with Weakly Supervised Localized
Representations [17.97183447033118]
ユニバーサルなスタイルではなく,局所的なスタイル,すなわちコンポーネントワイドなスタイル表現を学習する新しいフォント生成手法を提案する。
提案手法は,他の最先端手法よりも極めて優れたフォント生成結果(参照グリフが8つしかない)を示す。
論文 参考訳(メタデータ) (2021-12-22T14:26:53Z) - DAE-GAN: Dynamic Aspect-aware GAN for Text-to-Image Synthesis [55.788772366325105]
本研究では,文レベル,単語レベル,アスペクトレベルを含む複数の粒度からテキスト情報を包括的に表現する動的アスペクト・アワーン(DAE-GAN)を提案する。
人間の学習行動にインスパイアされた画像改善のためのADR(Aspect-aware Dynamic Re-drawer)を開発し,AGR(Attended Global Refinement)モジュールとALR(Aspect-aware Local Refinement)モジュールを交互に使用する。
論文 参考訳(メタデータ) (2021-08-27T07:20:34Z) - DG-Font: Deformable Generative Networks for Unsupervised Font Generation [14.178381391124036]
非監視フォント生成(DGFont)のための新しい変形可能な生成ネットワークを提案する。
本稿では,一対の変位マップを予測し,予測地図を用いてコンテンツエンコーダからの低レベル特徴マップに変形可能な畳み込みを適用する特徴変形スキップ接続(fdsc)を提案する。
実験により,本モデルが最先端手法よりも高品質な文字を生成することを実証した。
論文 参考訳(メタデータ) (2021-04-07T11:32:32Z) - Few-shot Font Generation with Localized Style Representations and
Factorization [23.781619323447003]
ユニバーサルスタイルの代わりに,局所化スタイル,すなわちコンポーネントワイドスタイル表現を学習し,新しいフォント生成手法を提案する。
提案手法は,8つの基準グリフ画像しか持たない少数のフォント生成結果が,他の最先端のフォントよりも著しく優れていることを示す。
論文 参考訳(メタデータ) (2020-09-23T10:33:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。