論文の概要: SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and
Out-of-Vocabulary Text
- arxiv url: http://arxiv.org/abs/2202.11456v1
- Date: Wed, 23 Feb 2022 12:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-24 21:13:54.862189
- Title: SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and
Out-of-Vocabulary Text
- Title(参考訳): SLOGAN:任意長・外語彙テキストのための手書きスタイル合成
- Authors: Canjie Luo, Yuanzhi Zhu, Lianwen Jin, Zhe Li, Dezhi Peng
- Abstract要約: 本稿では,任意の長文と語彙外文に対して,パラメータ化および制御可能な手書きスタイルを合成する手法を提案する。
我々は、容易に入手可能な印刷スタイルの画像を提供することで、テキストコンテンツを埋め込むことにより、コンテンツの多様性を柔軟に達成することができる。
本手法は,学習語彙に含まれない単語を,様々な新しいスタイルで合成することができる。
- 参考スコア(独自算出の注目度): 35.83345711291558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large amounts of labeled data are urgently required for the training of
robust text recognizers. However, collecting handwriting data of diverse
styles, along with an immense lexicon, is considerably expensive. Although data
synthesis is a promising way to relieve data hunger, two key issues of
handwriting synthesis, namely, style representation and content embedding,
remain unsolved. To this end, we propose a novel method that can synthesize
parameterized and controllable handwriting Styles for arbitrary-Length and
Out-of-vocabulary text based on a Generative Adversarial Network (GAN), termed
SLOGAN. Specifically, we propose a style bank to parameterize the specific
handwriting styles as latent vectors, which are input to a generator as style
priors to achieve the corresponding handwritten styles. The training of the
style bank requires only the writer identification of the source images, rather
than attribute annotations. Moreover, we embed the text content by providing an
easily obtainable printed style image, so that the diversity of the content can
be flexibly achieved by changing the input printed image. Finally, the
generator is guided by dual discriminators to handle both the handwriting
characteristics that appear as separated characters and in a series of cursive
joins. Our method can synthesize words that are not included in the training
vocabulary and with various new styles. Extensive experiments have shown that
high-quality text images with great style diversity and rich vocabulary can be
synthesized using our method, thereby enhancing the robustness of the
recognizer.
- Abstract(参考訳): 頑健なテキスト認識者の訓練には,大量のラベル付きデータが必要である。
しかし、多彩な様式の筆跡データと膨大な語彙の収集は非常に高価である。
データ合成はデータハンガーを緩和する有望な方法だが、手書き合成の2つの重要な問題、すなわちスタイル表現とコンテンツ埋め込みは未解決のままである。
そこで本研究では,GAN(Generative Adversarial Network, GAN)に基づく任意の長文と語彙外文に対して,パラメータ化および制御可能な手書きスタイルを合成する手法を提案する。
具体的には,特定の手書きスタイルを潜在ベクトルとしてパラメータ化するためのスタイルバンクを提案する。
スタイルバンクのトレーニングは、属性アノテーションではなく、ソースイメージのライター識別のみを必要とする。
また、入力された印刷画像を変更することにより、コンテンツの多様性を柔軟に達成できるように、容易に得られる印刷スタイル画像を提供することで、テキストコンテンツを埋め込む。
最後に、ジェネレータは二重判別器によって誘導され、分離文字として現れる手書き特性と一連のカーシブ結合の両方を扱う。
本手法は,学習語彙に含まれない単語を,様々なスタイルで合成することができる。
広汎な実験により,優れたスタイルの多様性と豊かな語彙を持つ高品質なテキストイメージを本手法で合成できることが確認された。
関連論文リスト
- Decoupling Layout from Glyph in Online Chinese Handwriting Generation [6.566541829858544]
テキスト行レイアウト生成器とスタイル化フォント合成器を開発した。
レイアウトジェネレータは、テキスト内容と提供されたスタイル参照に基づいて、コンテキスト内学習を行い、各グリフに対する位置を自己回帰的に生成する。
文字埋め込み辞書、マルチスケールの書体スタイルエンコーダ、及び1DのU-Netベースの拡散デノイザからなるフォントシンセサイザは、所定のスタイル参照から抽出された書体スタイルを模倣しつつ、その位置に各フォントを生成する。
論文 参考訳(メタデータ) (2024-10-03T08:46:17Z) - DiffusionPen: Towards Controlling the Style of Handwritten Text Generation [7.398476020996681]
DiffusionPen (DiffPen) は遅延拡散モデルに基づく5ショットスタイルの手書きテキスト生成手法である。
提案手法は,文字と文体の特徴の両面を抽出し,現実的な手書きサンプルを生成する。
提案手法は,既存の手法を質的かつ定量的に上回り,その付加データにより手書き文字認識(HTR)システムの性能を向上させることができる。
論文 参考訳(メタデータ) (2024-09-09T20:58:25Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - Handwritten Text Generation from Visual Archetypes [25.951540903019467]
Few-Shotスタイルの手書きテキスト生成のためのTransformerベースのモデルを提案する。
我々は,大規模な合成データセット上で,特定の事前学習を活用することで,目に見えない作者の書跡の堅牢な表現を得る。
論文 参考訳(メタデータ) (2023-03-27T14:58:20Z) - Disentangling Writer and Character Styles for Handwriting Generation [8.33116145030684]
本稿では,2つの相補的コントラストを用いたSDT(style-disentangled Transformer)を用いて,参照サンプルのスタイル共通性を抽出する。
実験結果から,この2つの学習されたスタイル表現が,異なる周波数スケールで情報を提供することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-26T14:32:02Z) - StylerDALLE: Language-Guided Style Transfer Using a Vector-Quantized
Tokenizer of a Large-Scale Generative Model [64.26721402514957]
本論文では,自然言語を用いて抽象芸術スタイルを記述するスタイル転送手法であるStylerDALLEを提案する。
具体的には、非自己回帰的なトークンシーケンス変換として、言語誘導型転送タスクを定式化する。
スタイル情報を組み込むために,CLIPに基づく言語指導による強化学習戦略を提案する。
論文 参考訳(メタデータ) (2023-03-16T12:44:44Z) - Content and Style Aware Generation of Text-line Images for Handwriting
Recognition [4.301658883577544]
視覚的外観とテキストコンテンツの両方を条件とした手書きテキストライン画像の生成法を提案する。
本手法では,多彩な手書きスタイルの長いテキストラインサンプルを作成できる。
論文 参考訳(メタデータ) (2022-04-12T05:52:03Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Improving Disentangled Text Representation Learning with
Information-Theoretic Guidance [99.68851329919858]
自然言語の独特な性質は、テキスト表現の分離をより困難にする。
情報理論にインスパイアされた本研究では,テキストの不整合表現を効果的に表現する手法を提案する。
条件付きテキスト生成とテキストスタイル転送の両方の実験は、不整合表現の質を実証する。
論文 参考訳(メタデータ) (2020-06-01T03:36:01Z) - Separating Content from Style Using Adversarial Learning for Recognizing
Text in the Wild [103.51604161298512]
画像中の複数の文字の生成と認識のための逆学習フレームワークを提案する。
我々のフレームワークは、新しい最先端の認識精度を達成するために、最近の認識手法に統合することができる。
論文 参考訳(メタデータ) (2020-01-13T12:41:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。