論文の概要: DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation
- arxiv url: http://arxiv.org/abs/2509.23624v1
- Date: Sun, 28 Sep 2025 03:58:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.334618
- Title: DiffInk: Glyph- and Style-Aware Latent Diffusion Transformer for Text to Online Handwriting Generation
- Title(参考訳): DiffInk: テキストからオンライン手書き生成のためのグリフおよびスタイル対応遅延拡散変換器
- Authors: Wei Pan, Huiguo He, Hiuyi Cheng, Yilin Shi, Lianwen Jin,
- Abstract要約: DiffInkは、完全な手書き文字を生成するための最初の遅延拡散トランスフォーマーフレームワークである。
InkVAEは2つの相補的な潜在空間正規化損失で拡張された新しい逐次変分オートエンコーダである。
次に、ターゲットテキストと参照スタイルを統合し、コヒーレントペントラジェクトリを生成する新しい遅延拡散変換器InkDiTを紹介する。
- 参考スコア(独自算出の注目度): 41.08176249345279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep generative models have advanced text-to-online handwriting generation (TOHG), which aims to synthesize realistic pen trajectories conditioned on textual input and style references. However, most existing methods still primarily focus on character- or word-level generation, resulting in inefficiency and a lack of holistic structural modeling when applied to full text lines. To address these issues, we propose DiffInk, the first latent diffusion Transformer framework for full-line handwriting generation. We first introduce InkVAE, a novel sequential variational autoencoder enhanced with two complementary latent-space regularization losses: (1) an OCR-based loss enforcing glyph-level accuracy, and (2) a style-classification loss preserving writing style. This dual regularization yields a semantically structured latent space where character content and writer styles are effectively disentangled. We then introduce InkDiT, a novel latent diffusion Transformer that integrates target text and reference styles to generate coherent pen trajectories. Experimental results demonstrate that DiffInk outperforms existing state-of-the-art methods in both glyph accuracy and style fidelity, while significantly improving generation efficiency. Code will be made publicly available.
- Abstract(参考訳): 深層生成モデルは、テキスト入力とスタイル参照に条件付けられた現実的なペン軌跡を合成することを目的とした、高度なテキスト-オンライン手書き生成(TOHG)を備えている。
しかし、既存のほとんどの手法は文字や単語レベルの生成に重点を置いており、結果として全文行に適用する際の非効率性と全体的構造モデリングが欠如している。
これらの問題に対処するため、本研究では、フルライン手書き文字生成のための最初の潜伏拡散変換器フレームワークであるDiffInkを提案する。
InkVAE は,(1) グリフレベルの精度を向上する OCR ベースの損失,(2) スタイル分類による損失保存型書き込みスタイルの2つの相補的遅延空間正規化損失で拡張された新しい逐次変分オートエンコーダである。
この二重正規化は意味的に構造化された潜在空間をもたらし、文字の内容と書き手スタイルは効果的に切り離される。
次に、ターゲットテキストと参照スタイルを統合し、コヒーレントペントラジェクトリを生成する新しい遅延拡散変換器InkDiTを紹介する。
実験結果から,DiffInkはグリフ精度とスタイル忠実度の両方で既存の最先端手法よりも優れ,生成効率は著しく向上した。
コードは公開されます。
関連論文リスト
- Dual Orthogonal Guidance for Robust Diffusion-based Handwritten Text Generation [55.35931633405974]
拡散に基づく手書きテキスト生成(HTG)アプローチは、トレーニング時間と通常のスタイルで観察される単語内単語の頻度が高く、印象的な結果が得られる。
トレーニングサンプルを記憶する傾向があり、しばしばスタイルの多様性と生成の明確さに苦しむ。
そこで本研究では,元のプロンプトに対して負に摂動したプロンプトを利用する新しいサンプリング誘導戦略であるDual Orthogonal Guidance(DOG)を提案する。
最新技術であるDiffusionPenとOne-DMの実験結果から、DOGは、語彙外単語や難解な書き方であっても、内容の明快さと可変性を両立させることを示した。
論文 参考訳(メタデータ) (2025-08-23T13:09:19Z) - Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Decoupling Layout from Glyph in Online Chinese Handwriting Generation [6.566541829858544]
テキスト行レイアウト生成器とスタイル化フォント合成器を開発した。
レイアウトジェネレータは、テキスト内容と提供されたスタイル参照に基づいて、コンテキスト内学習を行い、各グリフに対する位置を自己回帰的に生成する。
文字埋め込み辞書、マルチスケールの書体スタイルエンコーダ、及び1DのU-Netベースの拡散デノイザからなるフォントシンセサイザは、所定のスタイル参照から抽出された書体スタイルを模倣しつつ、その位置に各フォントを生成する。
論文 参考訳(メタデータ) (2024-10-03T08:46:17Z) - DiffusionPen: Towards Controlling the Style of Handwritten Text Generation [7.398476020996681]
DiffusionPen (DiffPen) は遅延拡散モデルに基づく5ショットスタイルの手書きテキスト生成手法である。
提案手法は,文字と文体の特徴の両面を抽出し,現実的な手書きサンプルを生成する。
提案手法は,既存の手法を質的かつ定量的に上回り,その付加データにより手書き文字認識(HTR)システムの性能を向上させることができる。
論文 参考訳(メタデータ) (2024-09-09T20:58:25Z) - Zero-Shot Paragraph-level Handwriting Imitation with Latent Diffusion Models [13.41869920770082]
本稿では,特殊な損失関数を持つエンコーダ・デコーダ機構を改良した潜在拡散モデルを提案する。
適応的な2次元位置符号化と条件付け機構により拡散モデルの注意機構を向上する。
スタイルとコンテンツ保存の組み合わせを考慮して、行と段落の両方で既存の模倣手法を上回ります。
論文 参考訳(メタデータ) (2024-09-01T17:33:31Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。