論文の概要: StrokeGAN+: Few-Shot Semi-Supervised Chinese Font Generation with Stroke
Encoding
- arxiv url: http://arxiv.org/abs/2211.06198v1
- Date: Fri, 11 Nov 2022 13:39:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 15:48:46.353061
- Title: StrokeGAN+: Few-Shot Semi-Supervised Chinese Font Generation with Stroke
Encoding
- Title(参考訳): strokegan+:ストロークエンコーディングを用いた半教師付き中国語フォント生成
- Authors: Jinshan Zeng, Yefei Wang, Qi Chen, Yunxin Liu, Mingwen Wang, Yuan Yao
- Abstract要約: 本稿では,ストロークエンコーディングと数発の半教師付きスキームをCycleGANモデルに組み込んだ,textitGAN+Strokeと呼ばれる効果的なモデルを提案する。
実験結果から, モード崩壊問題は, 導入した1ビットストロークエンコーディングと数発の半教師付きトレーニングスキームにより効果的に軽減できることがわかった。
- 参考スコア(独自算出の注目度): 23.886977380061662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The generation of Chinese fonts has a wide range of applications. The
currently predominated methods are mainly based on deep generative models,
especially the generative adversarial networks (GANs). However, existing
GAN-based models usually suffer from the well-known mode collapse problem. When
mode collapse happens, the kind of GAN-based models will be failure to yield
the correct fonts. To address this issue, we introduce a one-bit stroke
encoding and a few-shot semi-supervised scheme (i.e., using a few paired data
as semi-supervised information) to explore the local and global structure
information of Chinese characters respectively, motivated by the intuition that
strokes and characters directly embody certain local and global modes of
Chinese characters. Based on these ideas, this paper proposes an effective
model called \textit{StrokeGAN+}, which incorporates the stroke encoding and
the few-shot semi-supervised scheme into the CycleGAN model. The effectiveness
of the proposed model is demonstrated by amounts of experiments. Experimental
results show that the mode collapse issue can be effectively alleviated by the
introduced one-bit stroke encoding and few-shot semi-supervised training
scheme, and that the proposed model outperforms the state-of-the-art models in
fourteen font generation tasks in terms of four important evaluation metrics
and the quality of generated characters. Besides CycleGAN, we also show that
the proposed idea can be adapted to other existing models to improve their
performance. The effectiveness of the proposed model for the zero-shot
traditional Chinese font generation is also evaluated in this paper.
- Abstract(参考訳): 中国語フォントの生成には幅広い応用がある。
現在主流となっている手法は、主に深層生成モデル、特にgans(generative adversarial network)に基づいている。
しかし、既存のGANベースのモデルはよく知られたモード崩壊問題に悩まされる。
モードが崩壊すると、ganベースのモデルでは正しいフォントが得られなくなる。
そこで本研究では,漢字の局所的および大域的構造情報を探索するために,1ビットのストローク符号化と数ショットの半教師付きスキーム(例えば,少数のペアデータを用いた半教師付き情報)を導入し,ストロークと文字が漢字の特定の局所的および大域的なモードを直接具現化するという直観性に動機づけられた。
これらの考え方に基づき,ストローク符号化と半教師付きスキームをサイクルガンモデルに組み込んだ実効モデルである \textit{ strokegan+} を提案する。
提案モデルの有効性は実験によって実証された。
実験の結果, モード崩壊問題は, 導入した1ビットのストロークエンコーディングと少数ショットの半教師付きトレーニングスキームによって効果的に緩和でき, 提案モデルは, 4つの重要な評価指標と生成文字の品質から, 14のフォント生成タスクにおける最先端モデルよりも優れていることがわかった。
また,CycleGANの他に,提案手法が既存のモデルに適応して性能を向上できることを示す。
本論文では, ゼロショット中国語フォント生成のためのモデルの有効性も評価した。
関連論文リスト
- Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens [53.99177152562075]
視覚における自己回帰モデルのスケールアップは、大きな言語モデルほど有益でないことが証明されている。
モデルが離散トークンを使用するか、連続トークンを使用するか、BERTやGPTのようなトランスフォーマーアーキテクチャを用いてランダムまたは固定順序でトークンを生成するか、という2つの重要な要素に焦点を当てる。
その結果,すべてのモデルが検証損失の点で効果的にスケールしているのに対して,評価性能はFID,GenEvalスコア,視覚的品質などによって異なる傾向を呈することがわかった。
論文 参考訳(メタデータ) (2024-10-17T17:59:59Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - DeepCalliFont: Few-shot Chinese Calligraphy Font Synthesis by
Integrating Dual-modality Generative Models [20.76773399161289]
特に中国語のフォントのフォント生成は困難で、進行中の課題である。
本稿では,2つのモダリティ生成モデルを統合することで,数ショットの漢字フォント合成のための新しいモデルDeepCalliFontを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:23:12Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Diff-Font: Diffusion Model for Robust One-Shot Font Generation [110.45944936952309]
Diff-Fontという拡散モデルに基づく新しいワンショットフォント生成手法を提案する。
提案するモデルは,フォントライブラリ全体を生成することを目的として,参照として1つのサンプルのみを与える。
十分に訓練されたDiff-Fontは、フォントギャップやフォントのバリエーションに対して堅牢であるだけでなく、難しい文字生成において有望なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-12-12T13:51:50Z) - SGCE-Font: Skeleton Guided Channel Expansion for Chinese Font Generation [19.20334101519465]
本稿では,中国語フォント生成のためのスケルトンガイドチャネル拡張(SGCE)モジュールと呼ばれる新しい情報誘導モジュールを提案する。
数値計算の結果, 既知のCycleGANによるモード崩壊問題は, 提案したSGCEモジュールを装備することで効果的に軽減できることがわかった。
論文 参考訳(メタデータ) (2022-11-26T04:21:46Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z) - Few-shot Text Classification with Dual Contrastive Consistency [31.141350717029358]
本稿では,事前学習した言語モデルを用いて,数ショットのテキスト分類を行う方法について検討する。
ラベル付きデータが少ない場合の教師付きコントラスト学習と、ラベルなしデータの一貫性と規則化を採用する。
論文 参考訳(メタデータ) (2022-09-29T19:26:23Z) - RoBERTa-wwm-ext Fine-Tuning for Chinese Text Classification [5.71097144710995]
変換器による双方向表現(BERT)は、様々な自然言語処理タスクにおけるパフォーマンスを劇的に向上させる、有望な方法である。
本プロジェクトでは,中国語テキスト分類にroberta-wwm-extプリトレイン言語モデルを適用し,微調整を行った。
モデルは、法行動の記述と違法行為の記述を含む2つの分類に分類することができた。
論文 参考訳(メタデータ) (2021-02-24T18:57:57Z) - StrokeGAN: Reducing Mode Collapse in Chinese Font Generation via Stroke
Encoding [20.877391644999534]
漢字のキーモード情報をキャプチャするための1ビットストロークエンコーディングを紹介します。
我々はこのモード情報を中国語フォント生成のための人気の深層生成モデルであるCycleGANに組み込む。
StrokeGANは一般的に、コンテンツと認識の精度で最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-12-16T01:36:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。