論文の概要: Handwritten Text Generation from Visual Archetypes
- arxiv url: http://arxiv.org/abs/2303.15269v1
- Date: Mon, 27 Mar 2023 14:58:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 14:45:45.749849
- Title: Handwritten Text Generation from Visual Archetypes
- Title(参考訳): 視覚アーチタイプからの手書きテキスト生成
- Authors: Vittorio Pippi, Silvia Cascianelli, Rita Cucchiara
- Abstract要約: Few-Shotスタイルの手書きテキスト生成のためのTransformerベースのモデルを提案する。
我々は,大規模な合成データセット上で,特定の事前学習を活用することで,目に見えない作者の書跡の堅牢な表現を得る。
- 参考スコア(独自算出の注目度): 25.951540903019467
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Generating synthetic images of handwritten text in a writer-specific style is
a challenging task, especially in the case of unseen styles and new words, and
even more when these latter contain characters that are rarely encountered
during training. While emulating a writer's style has been recently addressed
by generative models, the generalization towards rare characters has been
disregarded. In this work, we devise a Transformer-based model for Few-Shot
styled handwritten text generation and focus on obtaining a robust and
informative representation of both the text and the style. In particular, we
propose a novel representation of the textual content as a sequence of dense
vectors obtained from images of symbols written as standard GNU Unifont glyphs,
which can be considered their visual archetypes. This strategy is more suitable
for generating characters that, despite having been seen rarely during
training, possibly share visual details with the frequently observed ones. As
for the style, we obtain a robust representation of unseen writers' calligraphy
by exploiting specific pre-training on a large synthetic dataset. Quantitative
and qualitative results demonstrate the effectiveness of our proposal in
generating words in unseen styles and with rare characters more faithfully than
existing approaches relying on independent one-hot encodings of the characters.
- Abstract(参考訳): 特に目立たないスタイルや新しい単語の場合、手書きテキストの合成画像を生成することは難しい作業であり、さらに後者には訓練中に滅多に遭遇しない文字が含まれている。
作家のスタイルをエミュレートする手法は、最近生成モデルによって取り扱われているが、希少な文字に対する一般化は無視されている。
そこで本研究では,Few-Shotスタイルの手書きテキスト生成のためのトランスフォーマーモデルを提案し,テキストとスタイルの両方の堅牢かつ情報的表現の獲得に焦点をあてる。
特に,標準的なGNUユニフォングリフとして記述されたシンボルの画像から得られた高密度ベクトルの列として,テキスト内容の新たな表現を提案する。
この戦略は、トレーニング中にめったに見られない文字を生成するのに適しており、しばしば観察される文字と視覚的詳細を共有することができる。
スタイルについては,大規模な合成データセット上で特定の事前学習を活用し,見当たらない作家の書の堅牢な表現を得る。
定量的および定性的な結果から,従来の一点符号化方式よりも稀な文字を忠実に生成する上で,提案手法の有効性が示された。
関連論文リスト
- Learning to Generate Text in Arbitrary Writing Styles [6.7308816341849695]
言語モデルは、潜在的に小さな文章サンプルに基づいて、著者固有のスタイルでテキストを作成することが望ましい。
本稿では,テクスチャ的特徴を捉えた対照的に訓練された表現を用いて,ターゲットスタイルのテキストを生成するための言語モデルを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:58:52Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - Intelligent Grimm -- Open-ended Visual Storytelling via Latent Diffusion
Models [70.86603627188519]
我々は,オープンエンドなビジュアルストーリーテリングとして表現された,与えられたストーリーラインに基づいてコヒーレントな画像列を生成するという,斬新で挑戦的な課題に焦点をあてる。
本稿では,新しい視覚言語コンテキストモジュールを用いた学習に基づく自動回帰画像生成モデル(StoryGen)を提案する。
StoryGenは最適化なしに文字を一般化することができ、一貫性のあるコンテンツと一貫した文字で画像列を生成する。
論文 参考訳(メタデータ) (2023-06-01T17:58:50Z) - Disentangling Writer and Character Styles for Handwriting Generation [8.33116145030684]
本稿では,2つの相補的コントラストを用いたSDT(style-disentangled Transformer)を用いて,参照サンプルのスタイル共通性を抽出する。
実験結果から,この2つの学習されたスタイル表現が,異なる周波数スケールで情報を提供することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-26T14:32:02Z) - Learning Generative Structure Prior for Blind Text Image
Super-resolution [153.05759524358467]
我々は、キャラクター構造にもっと焦点をあてた小説を提示する。
StyleGANの生成空間を制限するため、各文字の離散的な特徴をコードブックに格納する。
提案した構造は, 従来より強い文字特異的指導を行い, 指定された文字の忠実で正確なストロークを復元する。
論文 参考訳(メタデータ) (2023-03-26T13:54:28Z) - Character-Aware Models Improve Visual Text Rendering [57.19915686282047]
現在の画像生成モデルは、十分に整形されたビジュアルテキストを生成するのに苦労している。
文字認識モデルは、新しい綴りタスクに大きな利益をもたらす。
われわれのモデルでは、ビジュアルスペルの精度は比較的高く、稀な単語の競合よりも30以上の精度が向上した。
論文 参考訳(メタデータ) (2022-12-20T18:59:23Z) - Content and Style Aware Generation of Text-line Images for Handwriting
Recognition [4.301658883577544]
視覚的外観とテキストコンテンツの両方を条件とした手書きテキストライン画像の生成法を提案する。
本手法では,多彩な手書きスタイルの長いテキストラインサンプルを作成できる。
論文 参考訳(メタデータ) (2022-04-12T05:52:03Z) - SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and
Out-of-Vocabulary Text [35.83345711291558]
本稿では,任意の長文と語彙外文に対して,パラメータ化および制御可能な手書きスタイルを合成する手法を提案する。
我々は、容易に入手可能な印刷スタイルの画像を提供することで、テキストコンテンツを埋め込むことにより、コンテンツの多様性を柔軟に達成することができる。
本手法は,学習語彙に含まれない単語を,様々な新しいスタイルで合成することができる。
論文 参考訳(メタデータ) (2022-02-23T12:13:27Z) - Scalable Font Reconstruction with Dual Latent Manifolds [55.29525824849242]
タイポグラフィー解析とフォント再構成を行う深層生成モデルを提案する。
このアプローチによって、効果的にモデル化できるキャラクタの種類を大規模にスケールアップすることが可能になります。
多くの言語の文字タイプを表す様々なデータセット上でフォント再構成のタスクを評価する。
論文 参考訳(メタデータ) (2021-09-10T20:37:43Z) - ZiGAN: Fine-grained Chinese Calligraphy Font Generation via a Few-shot
Style Transfer Approach [7.318027179922774]
ZiGANは、強力なエンドツーエンドの漢字フォント生成フレームワークである。
微粒なターゲットスタイルの文字を生成するために手動操作や冗長な前処理を一切必要としない。
提案手法は,数発の漢字スタイル転送における最先端の一般化能力を有する。
論文 参考訳(メタデータ) (2021-08-08T09:50:20Z) - Handwriting Transformers [98.3964093654716]
本稿では,スタイルコンテンツの絡み合いとグローバルおよびローカルライティングスタイルパターンの両方を学ぶことを目的とした,トランスフォーマティブベースの手書きテキスト画像生成手法であるhwtを提案する。
提案したHWTは, 自己認識機構を用いて, スタイルの例における長短距離関係をキャプチャする。
提案するHWTは,現実的な手書きテキスト画像を生成する。
論文 参考訳(メタデータ) (2021-04-08T17:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。