論文の概要: WriteViT: Handwritten Text Generation with Vision Transformer
- arxiv url: http://arxiv.org/abs/2505.13235v1
- Date: Mon, 19 May 2025 15:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.692039
- Title: WriteViT: Handwritten Text Generation with Vision Transformer
- Title(参考訳): WriteViT:Vision Transformerによる手書きテキスト生成
- Authors: Dang Hoai Nam, Huynh Tong Dang Khoa, Vo Nguyen Le Duy,
- Abstract要約: Vision Transformers (ViT) を組み込んだワンショット手書きテキスト合成フレームワーク WriteViT を紹介する。
WriteViTは、低リソースシナリオで強力な認識性能を維持しながら、高品質でスタイル一貫性のある手書き文字を生成する。
これらの結果は、多言語手書き文字生成と効率的なスタイル適応のためのトランスフォーマーベースの設計の約束を浮き彫りにする。
- 参考スコア(独自算出の注目度): 7.10052009802944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can quickly generalize handwriting styles from a single example by intuitively separating content from style. Machines, however, struggle with this task, especially in low-data settings, often missing subtle spatial and stylistic cues. Motivated by this gap, we introduce WriteViT, a one-shot handwritten text synthesis framework that incorporates Vision Transformers (ViT), a family of models that have shown strong performance across various computer vision tasks. WriteViT integrates a ViT-based Writer Identifier for extracting style embeddings, a multi-scale generator built with Transformer encoder-decoder blocks enhanced by conditional positional encoding (CPE), and a lightweight ViT-based recognizer. While previous methods typically rely on CNNs or CRNNs, our design leverages transformers in key components to better capture both fine-grained stroke details and higher-level style information. Although handwritten text synthesis has been widely explored, its application to Vietnamese -- a language rich in diacritics and complex typography -- remains limited. Experiments on Vietnamese and English datasets demonstrate that WriteViT produces high-quality, style-consistent handwriting while maintaining strong recognition performance in low-resource scenarios. These results highlight the promise of transformer-based designs for multilingual handwriting generation and efficient style adaptation.
- Abstract(参考訳): 人間は、コンテンツとスタイルを直感的に分離することで、1つの例から手書きスタイルを素早く一般化することができる。
しかし機械は、特に低データ設定では、このタスクに苦労するが、しばしば微妙な空間的およびスタイリスティックな手がかりを欠いている。
このギャップに触発されたWriteViTは、視覚変換器(ViT)を組み込んだワンショット手書きテキスト合成フレームワークである。
WriteViTは、スタイル埋め込みを抽出するためのViTベースのWriter Identifierと、条件付き位置符号化(CPE)によって強化されたTransformerエンコーダデコーダブロックを備えたマルチスケールジェネレータと、軽量なViTベースの認識器を統合している。
従来の手法は一般的にCNNやCRNNに頼っているが、我々の設計ではキーコンポーネントのトランスフォーマーを利用して、きめ細かいストロークの詳細と高レベルのスタイル情報の両方をよりよく捉えている。
手書きのテキスト合成は広く研究されているが、ベトナム語(ダイアクリティカルスや複雑なタイポグラフィーに富んだ言語)への適用は限定的である。
ベトナム語と英語のデータセットの実験では、WriteViTは低リソースのシナリオで強力な認識性能を維持しながら、高品質でスタイルに一貫性のある手書き文字を生成する。
これらの結果は、多言語手書き文字生成と効率的なスタイル適応のためのトランスフォーマーベースの設計の約束を浮き彫りにする。
関連論文リスト
- One-Shot Multilingual Font Generation Via ViT [2.023301270280465]
フォントデザインは、中国語、日本語、韓国語といったログラフ言語に固有の課題をもたらす。
本稿では,多言語フォント生成のためのビジョントランスフォーマー(ViT)ベースのモデルを提案する。
論文 参考訳(メタデータ) (2024-12-15T23:52:35Z) - Handwriting Recognition in Historical Documents with Multimodal LLM [0.0]
マルチモーダル言語モデルは、ショットプロンプトが少なく、OCRおよびコンピュータビジョンタスクの実行に有効であることを示した。
本稿では,ジェミニが作成した手書き文書の書き起こしの精度を,アートトランスフォーマーに基づく手法の現況に対して評価する。
論文 参考訳(メタデータ) (2024-10-31T15:32:14Z) - Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文 参考訳(メタデータ) (2024-10-24T15:15:01Z) - Story Visualization by Online Text Augmentation with Context Memory [64.86944645907771]
オンラインテキスト拡張による双方向トランスフォーマーフレームワークのための新しいメモリアーキテクチャを提案する。
提案手法は, FID, キャラクタF1, フレーム精度, BLEU-2/3, R精度など, 様々な指標において, 芸術の状態を著しく上回っている。
論文 参考訳(メタデータ) (2023-08-15T05:08:12Z) - ViTEraser: Harnessing the Power of Vision Transformers for Scene Text
Removal with SegMIM Pretraining [58.241008246380254]
シーンテキスト除去(STR)は、自然のシーンにおけるテキストストロークを視覚的に一貫性のある背景に置き換えることを目的としている。
最近のSTRアプローチは反復的な改善や明示的なテキストマスクに依存しており、結果としてテキストローカライゼーションの精度に高い複雑さと感度をもたらす。
そこで我々は, ViTEraser という, 単純なyet- Effective ViT-based text eraser を提案する。
論文 参考訳(メタデータ) (2023-06-21T08:47:20Z) - Handwritten Text Generation from Visual Archetypes [25.951540903019467]
Few-Shotスタイルの手書きテキスト生成のためのTransformerベースのモデルを提案する。
我々は,大規模な合成データセット上で,特定の事前学習を活用することで,目に見えない作者の書跡の堅牢な表現を得る。
論文 参考訳(メタデータ) (2023-03-27T14:58:20Z) - SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and
Out-of-Vocabulary Text [35.83345711291558]
本稿では,任意の長文と語彙外文に対して,パラメータ化および制御可能な手書きスタイルを合成する手法を提案する。
我々は、容易に入手可能な印刷スタイルの画像を提供することで、テキストコンテンツを埋め込むことにより、コンテンツの多様性を柔軟に達成することができる。
本手法は,学習語彙に含まれない単語を,様々な新しいスタイルで合成することができる。
論文 参考訳(メタデータ) (2022-02-23T12:13:27Z) - Handwriting Transformers [98.3964093654716]
本稿では,スタイルコンテンツの絡み合いとグローバルおよびローカルライティングスタイルパターンの両方を学ぶことを目的とした,トランスフォーマティブベースの手書きテキスト画像生成手法であるhwtを提案する。
提案したHWTは, 自己認識機構を用いて, スタイルの例における長短距離関係をキャプチャする。
提案するHWTは,現実的な手書きテキスト画像を生成する。
論文 参考訳(メタデータ) (2021-04-08T17:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。