論文の概要: DiffusionPen: Towards Controlling the Style of Handwritten Text Generation
- arxiv url: http://arxiv.org/abs/2409.06065v1
- Date: Mon, 9 Sep 2024 20:58:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 19:40:45.210196
- Title: DiffusionPen: Towards Controlling the Style of Handwritten Text Generation
- Title(参考訳): DiffusionPen: 手書きテキスト生成のスタイル制御を目指して
- Authors: Konstantina Nikolaidou, George Retsinas, Giorgos Sfikas, Marcus Liwicki,
- Abstract要約: DiffusionPen (DiffPen) は遅延拡散モデルに基づく5ショットスタイルの手書きテキスト生成手法である。
提案手法は,文字と文体の特徴の両面を抽出し,現実的な手書きサンプルを生成する。
提案手法は,既存の手法を質的かつ定量的に上回り,その付加データにより手書き文字認識(HTR)システムの性能を向上させることができる。
- 参考スコア(独自算出の注目度): 7.398476020996681
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Handwritten Text Generation (HTG) conditioned on text and style is a challenging task due to the variability of inter-user characteristics and the unlimited combinations of characters that form new words unseen during training. Diffusion Models have recently shown promising results in HTG but still remain under-explored. We present DiffusionPen (DiffPen), a 5-shot style handwritten text generation approach based on Latent Diffusion Models. By utilizing a hybrid style extractor that combines metric learning and classification, our approach manages to capture both textual and stylistic characteristics of seen and unseen words and styles, generating realistic handwritten samples. Moreover, we explore several variation strategies of the data with multi-style mixtures and noisy embeddings, enhancing the robustness and diversity of the generated data. Extensive experiments using IAM offline handwriting database show that our method outperforms existing methods qualitatively and quantitatively, and its additional generated data can improve the performance of Handwriting Text Recognition (HTR) systems. The code is available at: https://github.com/koninik/DiffusionPen.
- Abstract(参考訳): テキストとスタイルに条件付けされた手書きテキスト生成(HTG)は、ユーザ間の特性のばらつきと、トレーニング中に目に見えない新しい単語を形成する文字の無制限の組み合わせのために難しい課題である。
拡散モデルは最近、HTGで有望な結果を示したが、まだ未調査のままである。
遅延拡散モデルに基づく5ショットスタイルの手書きテキスト生成手法であるDiffusionPen(DiffPen)を提案する。
計量学習と分類を組み合わせたハイブリッド型抽出器を用いて,見知らぬ単語やスタイルのテキスト的特徴と文体的特徴の両方を抽出し,現実的な手書きサンプルを生成する。
さらに、マルチスタイルの混合とノイズの埋め込みによるデータの変動戦略を探索し、生成したデータの堅牢性と多様性を高める。
IAMオフライン手書きデータベースを用いた大規模な実験により,本手法は既存の手法を質的・定量的に上回り,その追加データにより手書き文字認識(HTR)システムの性能が向上することが示された。
コードは、https://github.com/koninik/DiffusionPen.comで入手できる。
関連論文リスト
- One-Shot Diffusion Mimicker for Handwritten Text Generation [5.845883883415509]
既存の手書きテキスト生成方法は、スタイル参照として10以上の手書きサンプルを必要とすることが多い。
ワンショット生成はプロセスを大幅に単純化するが、単一のサンプルから作家のスタイルを正確に把握することが困難であるため、大きな課題となる。
1つの参照サンプルのみで任意の書体スタイルを模倣できる手書きテキストを生成するワンショット拡散ミカ(One-shot Diffusion Mimicker)を提案する。
論文 参考訳(メタデータ) (2024-09-06T03:10:59Z) - ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - Stylized Data-to-Text Generation: A Case Study in the E-Commerce Domain [53.22419717434372]
本稿では,特定のスタイルに従ってコヒーレントテキストを生成することを目的とした新しいタスク,すなわちスタイル化されたデータ・テキスト生成を提案する。
このタスクは、生成されたテキストのロジック、構造化されていないスタイル参照、バイアスのあるトレーニングサンプルという3つの課題のため、簡単ではない。
本稿では,論理計画型データ埋め込み,マスク型スタイル埋め込み,非バイアス型スタイリングテキスト生成の3つのコンポーネントからなる,新しいスタイル付きデータ・テキスト生成モデルであるStyleD2Tを提案する。
論文 参考訳(メタデータ) (2023-05-05T03:02:41Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - DS-Fusion: Artistic Typography via Discriminated and Stylized Diffusion [10.75789076591325]
1つ以上の文字フォントをスタイリングすることで,芸術的タイポグラフィーを自動的に生成する新しい手法を提案する。
提案手法では,大規模言語モデルを用いてテキストや視覚画像をブリッジしてスタイリングし,教師なし生成モデルを構築する。
論文 参考訳(メタデータ) (2023-03-16T19:12:52Z) - Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文 参考訳(メタデータ) (2022-08-17T06:55:54Z) - Content and Style Aware Generation of Text-line Images for Handwriting
Recognition [4.301658883577544]
視覚的外観とテキストコンテンツの両方を条件とした手書きテキストライン画像の生成法を提案する。
本手法では,多彩な手書きスタイルの長いテキストラインサンプルを作成できる。
論文 参考訳(メタデータ) (2022-04-12T05:52:03Z) - SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and
Out-of-Vocabulary Text [35.83345711291558]
本稿では,任意の長文と語彙外文に対して,パラメータ化および制御可能な手書きスタイルを合成する手法を提案する。
我々は、容易に入手可能な印刷スタイルの画像を提供することで、テキストコンテンツを埋め込むことにより、コンテンツの多様性を柔軟に達成することができる。
本手法は,学習語彙に含まれない単語を,様々な新しいスタイルで合成することができる。
論文 参考訳(メタデータ) (2022-02-23T12:13:27Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - SmartPatch: Improving Handwritten Word Imitation with Patch
Discriminators [67.54204685189255]
本稿では,現在の最先端手法の性能を向上させる新手法であるSmartPatchを提案する。
我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報を組み合わせる。
これにより、より強化された局所識別器が実現し、より現実的で高品質な手書き文字が生成される。
論文 参考訳(メタデータ) (2021-05-21T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。