論文の概要: Layout Stroke Imitation: A Layout Guided Handwriting Stroke Generation for Style Imitation with Diffusion Model
- arxiv url: http://arxiv.org/abs/2509.15678v1
- Date: Fri, 19 Sep 2025 06:53:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.039952
- Title: Layout Stroke Imitation: A Layout Guided Handwriting Stroke Generation for Style Imitation with Diffusion Model
- Title(参考訳): レイアウト・ストローク・イミテーション:拡散モデルを用いたスタイル・イミテーションのためのレイアウト誘導手書き・ストローク・ジェネレーション
- Authors: Sidra Hanif, Longin Jan Latecki,
- Abstract要約: 本研究は,書体模倣のためのマルチスケールアテンション機能を提案する。
これらのマルチスケール機能埋め込みは、ローカルおよびグローバルスタイルの機能を強調している。
第2に,直接生成したスタイル画像と対照的に,ストロークの予測を行う条件拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 8.457315999229907
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Handwriting stroke generation is crucial for improving the performance of tasks such as handwriting recognition and writers order recovery. In handwriting stroke generation, it is significantly important to imitate the sample calligraphic style. The previous studies have suggested utilizing the calligraphic features of the handwriting. However, they had not considered word spacing (word layout) as an explicit handwriting feature, which results in inconsistent word spacing for style imitation. Firstly, this work proposes multi-scale attention features for calligraphic style imitation. These multi-scale feature embeddings highlight the local and global style features. Secondly, we propose to include the words layout, which facilitates word spacing for handwriting stroke generation. Moreover, we propose a conditional diffusion model to predict strokes in contrast to previous work, which directly generated style images. Stroke generation provides additional temporal coordinate information, which is lacking in image generation. Hence, our proposed conditional diffusion model for stroke generation is guided by calligraphic style and word layout for better handwriting imitation and stroke generation in a calligraphic style. Our experimentation shows that the proposed diffusion model outperforms the current state-of-the-art stroke generation and is competitive with recent image generation networks.
- Abstract(参考訳): 手書きストローク生成は、手書き認識や書き手注文などのタスクのパフォーマンス向上に不可欠である。
筆跡ストローク生成では, サンプル書体を模倣することが重要である。
先行研究は筆跡の書跡的特徴を活用することを示唆している。
しかし、彼らは単語スペーシング(単語レイアウト)を明示的な手書き機能とは考えておらず、結果としてスタイルの模倣に不整合な単語スペーシングが生じていた。
まず,書体模倣のためのマルチスケールアテンション機能を提案する。
これらのマルチスケール機能埋め込みは、ローカルおよびグローバルスタイルの機能を強調している。
次に,手書きストローク生成のための単語スペーシングを容易にする単語レイアウトを提案する。
さらに, 直接生成したスタイル画像と対照的に, ストロークの予測を行う条件拡散モデルを提案する。
ストローク生成は、画像生成に欠けている追加の時間座標情報を提供する。
そこで,本提案手法は,書字スタイルと単語レイアウトを用いて,書字スタイルでの筆跡模倣やストローク生成を改良するための条件拡散モデルである。
実験により,提案した拡散モデルは現在の最先端のストローク生成よりも優れており,最近の画像生成ネットワークと競合することが示された。
関連論文リスト
- Calligrapher: Freestyle Text Image Customization [72.71919410487881]
Calligrapherは、高度なテキストのカスタマイズと芸術的なタイポグラフィを統合する、新しい拡散ベースのフレームワークである。
高品質で視覚的に一貫したタイポグラフィーを自動化することで、Calligrapherは従来のモデルを上回っている。
論文 参考訳(メタデータ) (2025-06-30T17:59:06Z) - DiffusionPen: Towards Controlling the Style of Handwritten Text Generation [7.398476020996681]
DiffusionPen (DiffPen) は遅延拡散モデルに基づく5ショットスタイルの手書きテキスト生成手法である。
提案手法は,文字と文体の特徴の両面を抽出し,現実的な手書きサンプルを生成する。
提案手法は,既存の手法を質的かつ定量的に上回り,その付加データにより手書き文字認識(HTR)システムの性能を向上させることができる。
論文 参考訳(メタデータ) (2024-09-09T20:58:25Z) - Zero-Shot Paragraph-level Handwriting Imitation with Latent Diffusion Models [13.41869920770082]
本稿では,特殊な損失関数を持つエンコーダ・デコーダ機構を改良した潜在拡散モデルを提案する。
適応的な2次元位置符号化と条件付け機構により拡散モデルの注意機構を向上する。
スタイルとコンテンツ保存の組み合わせを考慮して、行と段落の両方で既存の模倣手法を上回ります。
論文 参考訳(メタデータ) (2024-09-01T17:33:31Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - ControlStyle: Text-Driven Stylized Image Generation Using Diffusion
Priors [105.37795139586075]
そこで本研究では,テキスト駆動型スタイリング画像生成という,テキスト・イメージ・モデルをスタイリングするための新しいタスクを提案する。
トレーニング可能な変調ネットワークで事前訓練されたテキスト・ツー・イメージモデルをアップグレードすることで,新しい拡散モデル(ControlStyle)を提案する。
実験では、より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性が示されています。
論文 参考訳(メタデータ) (2023-11-09T15:50:52Z) - Towards Diverse and Consistent Typography Generation [15.300255326619203]
複数のテキスト要素に対する微粒な属性生成としてタイポグラフィ生成を定式化する。
入力設計コンテキストにマッチする多様なタイポグラフィを生成するために,自動回帰モデルを構築した。
論文 参考訳(メタデータ) (2023-09-05T10:08:11Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - Generating Handwriting via Decoupled Style Descriptors [28.31500214381889]
本稿では,手書き文字のデクリプタモデルについて紹介する。
キャラクタレベルのスタイルとライタレベルのスタイルの両方を規定し、私たちのモデルが全体的なスタイルの空間を表現できるようにします。
実験では, 得られた結果の88%が, アートベースライン法の現状よりも好適であった。
論文 参考訳(メタデータ) (2020-08-26T02:52:48Z) - Improving Adversarial Text Generation by Modeling the Distant Future [155.83051741029732]
テキスト計画手法を考察し、上記の問題を緩和するためのモデルに基づく模倣学習手法を提案する。
本稿では,より長い地平線上の生成過程に焦点をあてる新しいガイドネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-04T05:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。