論文の概要: ScriptViT: Vision Transformer-Based Personalized Handwriting Generation
- arxiv url: http://arxiv.org/abs/2511.18307v1
- Date: Sun, 23 Nov 2025 06:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.763393
- Title: ScriptViT: Vision Transformer-Based Personalized Handwriting Generation
- Title(参考訳): ScriptViT:視覚変換器によるパーソナライズされた手書き文字生成
- Authors: Sajjan Acharya, Rajendra Baskota,
- Abstract要約: スタイル付き手書き文字生成は、写実的で、特定のライターのスタイルと整合した手書きテキストを合成することを目的としている。
複数の参照画像からグローバルなスタイルパターンを学習するビジョントランスフォーマー方式のエンコーダを提案する。
次に、これらのスタイルキューをクロスアテンション機構を用いて対象のテキストと統合し、より忠実に意図したスタイルを反映した手書き画像を生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Styled handwriting generation aims to synthesize handwritten text that looks both realistic and aligned with a specific writer's style. While recent approaches involving GAN, transformer and diffusion-based models have made progress, they often struggle to capture the full spectrum of writer-specific attributes, particularly global stylistic patterns that span long-range spatial dependencies. As a result, capturing subtle writer-specific traits such as consistent slant, curvature or stroke pressure, while keeping the generated text accurate is still an open problem. In this work, we present a unified framework designed to address these limitations. We introduce a Vision Transformer-based style encoder that learns global stylistic patterns from multiple reference images, allowing the model to better represent long-range structural characteristics of handwriting. We then integrate these style cues with the target text using a cross-attention mechanism, enabling the system to produce handwritten images that more faithfully reflect the intended style. To make the process more interpretable, we utilize Salient Stroke Attention Analysis (SSAA), which reveals the stroke-level features the model focuses on during style transfer. Together, these components lead to handwriting synthesis that is not only more stylistically coherent, but also easier to understand and analyze.
- Abstract(参考訳): 手書き文字生成は、現実的かつ特定の著者のスタイルに整合した手書きテキストを合成することを目的としている。
GAN、トランスフォーマー、拡散に基づくモデルを含む最近のアプローチは進歩しているが、著者固有の属性、特に長距離空間依存にまたがるグローバルなスタイルパターンの完全なスペクトルを捉えるのに苦労することが多い。
結果として、一貫したスラント、曲率、ストロークプレッシャーなどの微妙な作者特有の特徴を捉えながら、生成したテキストを正確に保持することは、まだ未解決の問題である。
本研究では,これらの制約に対処する統合フレームワークを提案する。
複数の参照画像からグローバルなスタイルパターンを学習し、手書きの長距離構造特性をよりよく表現するビジョントランスフォーマー方式のエンコーダを提案する。
次に、これらのスタイルキューをクロスアテンション機構を用いて対象のテキストと統合し、より忠実に意図したスタイルを反映した手書き画像を生成する。
プロセスをより解釈しやすくするために,Salient Stroke Attention Analysis (SSAA) を用いて,モデルがスタイル転送時に重視するストロークレベルの特徴を明らかにする。
これらの構成要素が組み合わさって、よりスタイリスティックなコヒーレントであるだけでなく、理解しやすく、分析しやすい手書き合成へと繋がる。
関連論文リスト
- Autoregressive Styled Text Image Generation, but Make it Reliable [51.09340470015673]
本研究は,最近提案されたHTGの自己回帰トランスフォーマーパラダイムによって達成された,スタイルの忠実さと一般化の両面で有望な成果を生かし,その特性を再現する戦略開発に焦点をあてる。
本研究では,HTGをマルチモーダルなプロンプト条件付き生成タスクとしてフレーミングすることで自己回帰を再考し,視覚との整合性を高めるために特別な入力トークンを導入することで,コンテンツ制御可能性の問題に対処する。
論文 参考訳(メタデータ) (2025-10-27T11:54:23Z) - Calligrapher: Freestyle Text Image Customization [72.71919410487881]
Calligrapherは、高度なテキストのカスタマイズと芸術的なタイポグラフィを統合する、新しい拡散ベースのフレームワークである。
高品質で視覚的に一貫したタイポグラフィーを自動化することで、Calligrapherは従来のモデルを上回っている。
論文 参考訳(メタデータ) (2025-06-30T17:59:06Z) - WriteViT: Handwritten Text Generation with Vision Transformer [7.10052009802944]
Vision Transformers (ViT) を組み込んだワンショット手書きテキスト合成フレームワーク WriteViT を紹介する。
WriteViTは、低リソースシナリオで強力な認識性能を維持しながら、高品質でスタイル一貫性のある手書き文字を生成する。
これらの結果は、多言語手書き文字生成と効率的なスタイル適応のためのトランスフォーマーベースの設計の約束を浮き彫りにする。
論文 参考訳(メタデータ) (2025-05-19T15:17:53Z) - GlyphMastero: A Glyph Encoder for High-Fidelity Scene Text Editing [23.64662356622401]
GlyphMasteroという特殊なグリフエンコーダは、ストロークレベルの精度でテキストを生成するために、潜時拡散モデルを導出するために設計されている。
本手法は,現状のシーンテキスト編集ベースラインよりも文精度が18.02%向上した。
論文 参考訳(メタデータ) (2025-05-08T03:11:58Z) - Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文 参考訳(メタデータ) (2024-10-24T15:15:01Z) - Zero-Shot Paragraph-level Handwriting Imitation with Latent Diffusion Models [13.41869920770082]
本稿では,特殊な損失関数を持つエンコーダ・デコーダ機構を改良した潜在拡散モデルを提案する。
適応的な2次元位置符号化と条件付け機構により拡散モデルの注意機構を向上する。
スタイルとコンテンツ保存の組み合わせを考慮して、行と段落の両方で既存の模倣手法を上回ります。
論文 参考訳(メタデータ) (2024-09-01T17:33:31Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - Handwriting Transformers [98.3964093654716]
本稿では,スタイルコンテンツの絡み合いとグローバルおよびローカルライティングスタイルパターンの両方を学ぶことを目的とした,トランスフォーマティブベースの手書きテキスト画像生成手法であるhwtを提案する。
提案したHWTは, 自己認識機構を用いて, スタイルの例における長短距離関係をキャプチャする。
提案するHWTは,現実的な手書きテキスト画像を生成する。
論文 参考訳(メタデータ) (2021-04-08T17:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。