論文の概要: Zero-Shot Paragraph-level Handwriting Imitation with Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2409.00786v1
- Date: Sun, 1 Sep 2024 17:33:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 09:01:41.341367
- Title: Zero-Shot Paragraph-level Handwriting Imitation with Latent Diffusion Models
- Title(参考訳): 潜時拡散モデルを用いたゼロショットパラグラフレベルの手書き表現
- Authors: Martin Mayr, Marcel Dreier, Florian Kordon, Mathias Seuret, Jochen Zöllner, Fei Wu, Andreas Maier, Vincent Christlein,
- Abstract要約: 本稿では,特殊な損失関数を持つエンコーダ・デコーダ機構を改良した潜在拡散モデルを提案する。
適応的な2次元位置符号化と条件付け機構により拡散モデルの注意機構を向上する。
スタイルとコンテンツ保存の組み合わせを考慮して、行と段落の両方で既存の模倣手法を上回ります。
- 参考スコア(独自算出の注目度): 13.41869920770082
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The imitation of cursive handwriting is mainly limited to generating handwritten words or lines. Multiple synthetic outputs must be stitched together to create paragraphs or whole pages, whereby consistency and layout information are lost. To close this gap, we propose a method for imitating handwriting at the paragraph level that also works for unseen writing styles. Therefore, we introduce a modified latent diffusion model that enriches the encoder-decoder mechanism with specialized loss functions that explicitly preserve the style and content. We enhance the attention mechanism of the diffusion model with adaptive 2D positional encoding and the conditioning mechanism to work with two modalities simultaneously: a style image and the target text. This significantly improves the realism of the generated handwriting. Our approach sets a new benchmark in our comprehensive evaluation. It outperforms all existing imitation methods at both line and paragraph levels, considering combined style and content preservation.
- Abstract(参考訳): 筆跡の模倣は、主に手書きの単語や行の生成に限られる。
複数の合成出力を縫合して段落やページ全体を作成し、一貫性とレイアウト情報が失われる。
このギャップを埋めるために,未確認の書体にも役立つ段落レベルで手書きを模倣する手法を提案する。
そこで本研究では,エンコーダ・デコーダ機構を拡張した潜在拡散モデルを提案する。
適応的な2次元位置符号化による拡散モデルの注意機構と、スタイル画像とターゲットテキストの2つのモードを同時に扱う条件付け機構を強化する。
これにより、生成された手書き文字のリアリズムが大幅に改善される。
私たちのアプローチは、包括的な評価に新しいベンチマークを設定します。
スタイルとコンテンツ保存の組み合わせを考慮して、行と段落の両方で既存の模倣手法を上回ります。
関連論文リスト
- ArtWeaver: Advanced Dynamic Style Integration via Diffusion Model [73.95608242322949]
Stylized Text-to-Image Generation (STIG)は、テキストプロンプトとスタイル参照画像から画像を生成することを目的としている。
我々は、事前訓練された安定拡散を利用して、誤解釈スタイルや一貫性のない意味論といった課題に対処する新しいフレームワーク、ArtWeaverを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:19:40Z) - DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment [112.45442468794658]
本稿では,RealignDiffという2段階の粗大なセマンティックアライメント手法を提案する。
粗いセマンティックリアライメントフェーズにおいて、生成された画像キャプションと与えられたテキストプロンプトとのセマンティックな相違を評価するために、新しいキャプション報酬を提案する。
微妙なセマンティックリアライメントステージは、局所的な密集キャプション生成モジュールと再重み付けアテンション変調モジュールを用いて、局所的なセマンティックビューから生成された画像を洗練する。
論文 参考訳(メタデータ) (2023-05-31T06:59:21Z) - Content and Style Aware Generation of Text-line Images for Handwriting
Recognition [4.301658883577544]
視覚的外観とテキストコンテンツの両方を条件とした手書きテキストライン画像の生成法を提案する。
本手法では,多彩な手書きスタイルの長いテキストラインサンプルを作成できる。
論文 参考訳(メタデータ) (2022-04-12T05:52:03Z) - SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and
Out-of-Vocabulary Text [35.83345711291558]
本稿では,任意の長文と語彙外文に対して,パラメータ化および制御可能な手書きスタイルを合成する手法を提案する。
我々は、容易に入手可能な印刷スタイルの画像を提供することで、テキストコンテンツを埋め込むことにより、コンテンツの多様性を柔軟に達成することができる。
本手法は,学習語彙に含まれない単語を,様々な新しいスタイルで合成することができる。
論文 参考訳(メタデータ) (2022-02-23T12:13:27Z) - Generating Handwriting via Decoupled Style Descriptors [28.31500214381889]
本稿では,手書き文字のデクリプタモデルについて紹介する。
キャラクタレベルのスタイルとライタレベルのスタイルの両方を規定し、私たちのモデルが全体的なスタイルの空間を表現できるようにします。
実験では, 得られた結果の88%が, アートベースライン法の現状よりも好適であった。
論文 参考訳(メタデータ) (2020-08-26T02:52:48Z) - Exploring Contextual Word-level Style Relevance for Unsupervised Style
Transfer [60.07283363509065]
教師なしのスタイル転送は、元のコンテンツを保持しながら入力文のスタイルを変更することを目的としている。
本稿では,各出力語がターゲットスタイルに関連性があることを活かした,新たな注目シーケンス・ツー・シーケンスモデルを提案する。
実験結果から,提案手法は転送精度とコンテンツ保存の両面から,最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2020-05-05T10:24:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。