論文の概要: WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.16576v2
- Date: Wed, 17 May 2023 09:20:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 19:49:21.339041
- Title: WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models
- Title(参考訳): WordStylist: 潜時拡散モデルを用いたスタイルのVerbatim手書きテキスト生成
- Authors: Konstantina Nikolaidou, George Retsinas, Vincent Christlein, Mathias
Seuret, Giorgos Sfikas, Elisa Barney Smith, Hamam Mokayed, Marcus Liwicki
- Abstract要約: 単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
- 参考スコア(独自算出の注目度): 8.334487584550185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Image synthesis is the task of generating an image according to a
specific text description. Generative Adversarial Networks have been considered
the standard method for image synthesis virtually since their introduction.
Denoising Diffusion Probabilistic Models are recently setting a new baseline,
with remarkable results in Text-to-Image synthesis, among other fields. Aside
its usefulness per se, it can also be particularly relevant as a tool for data
augmentation to aid training models for other document image processing tasks.
In this work, we present a latent diffusion-based method for styled
text-to-text-content-image generation on word-level. Our proposed method is
able to generate realistic word image samples from different writer styles, by
using class index styles and text content prompts without the need of
adversarial training, writer recognition, or text recognition. We gauge system
performance with the Fr\'echet Inception Distance, writer recognition accuracy,
and writer retrieval. We show that the proposed model produces samples that are
aesthetically pleasing, help boosting text recognition performance, and get
similar writer retrieval score as real data. Code is available at:
https://github.com/koninik/WordStylist.
- Abstract(参考訳): テキストから画像への合成は、特定のテキスト記述に従って画像を生成するタスクである。
ジェネレーティブ・アドバイサル・ネットワークは,導入以来,画像合成の標準手法として検討されてきた。
Denoising Diffusion Probabilistic Modelsは近年,テキストから画像への合成など,新たなベースラインを設定している。
その有用性は別として、他の文書画像処理タスクのトレーニングモデルを支援するためのデータ拡張ツールとして特に関係がある。
本稿では,単語レベルでテキストからテキストへのテキスト画像生成のための潜在拡散に基づく手法を提案する。
提案手法は,学習や文字認識,テキスト認識を必要とせずに,クラスインデックススタイルやテキストコンテンツプロンプトを用いて,異なる書き手スタイルから現実的な単語画像を生成することができる。
Fr'echet Inception Distance, 文字認識精度, 文字検索によるシステム性能の評価を行った。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能を向上させるとともに,類似の文字検索スコアを実データとして取得する。
コードは、https://github.com/koninik/WordStylist.comで入手できる。
関連論文リスト
- TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models [39.06617653124486]
我々はTypeScoreと呼ばれる新しい評価フレームワークを導入し、モデルが高忠実な埋め込みテキストで画像を生成する能力を評価する。
提案手法は、CLIPScoreよりも高解像度で、一般的な画像生成モデルを区別する。
論文 参考訳(メタデータ) (2024-11-02T07:56:54Z) - Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Style Generation: Image Synthesis based on Coarsely Matched Texts [10.939482612568433]
テキストベースのスタイル生成と呼ばれる新しいタスクを導入し、2段階の生成対角ネットワークを提案する。
第1ステージは、文特徴付き全体画像スタイルを生成し、第2ステージは、合成特徴付きで生成されたスタイルを洗練する。
本研究は,テキスト・イメージアライメントやストーリー・ビジュアライゼーションといった様々な応用によって実証された。
論文 参考訳(メタデータ) (2023-09-08T21:51:11Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - Content and Style Aware Generation of Text-line Images for Handwriting
Recognition [4.301658883577544]
視覚的外観とテキストコンテンツの両方を条件とした手書きテキストライン画像の生成法を提案する。
本手法では,多彩な手書きスタイルの長いテキストラインサンプルを作成できる。
論文 参考訳(メタデータ) (2022-04-12T05:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。