論文の概要: CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization
- arxiv url: http://arxiv.org/abs/2603.07543v1
- Date: Sun, 08 Mar 2026 09:06:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.793631
- Title: CONSTANT: Towards High-Quality One-Shot Handwriting Generation with Patch Contrastive Enhancement and Style-Aware Quantization
- Title(参考訳): CONSTANT: Patch Contrastive EnhancementとStyle-Aware Quantizationによる高品質ワンショット手書き文字生成
- Authors: Anh-Duy Le, Van-Linh Pham, Thanh-Nam Vo, Xuan Toan Mai, Tuan-Anh Tran,
- Abstract要約: Denoising Diffusion(CONSTANT)によるパッチコントラスト強化とスタイルアウェア量子化について紹介する。
CONSTANTは、拡散モデルによる新しいワンショット手書き生成である。
最先端のアプローチによる手法の詳細な画像を生成する。
- 参考スコア(独自算出の注目度): 0.2446672595462589
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: One-shot styled handwriting image generation, despite achieving impressive results in recent years, remains challenging due to the difficulty in capturing the intricate and diverse characteristics of human handwriting by using solely a single reference image. Existing methods still struggle to generate visually appealing and realistic handwritten images and adapt to complex, unseen writer styles, struggling to isolate invariant style features (e.g., slant, stroke width, curvature) while ignoring irrelevant noise. To tackle this problem, we introduce Patch Contrastive Enhancement and Style-Aware Quantization via Denoising Diffusion (CONSTANT), a novel one-shot handwriting generation via diffusion model. CONSTANT leverages three key innovations: 1) a Style-Aware Quantization (SAQ) module that models style as discrete visual tokens capturing distinct concepts; 2) a contrastive objective to ensure these tokens are well-separated and meaningful in the embedding style space; 3) a latent patch-based contrastive (LLatentPCE) objective help improving quality and local structures by aligning multiscale spatial patches of generated and real features in latent space. Extensive experiments and analysis on benchmark datasets from multiple languages, including English, Chinese, and our proposed ViHTGen dataset for Vietnamese, demonstrate the superiority of adapting to new reference styles and producing highly detailed images of our method over state-of-the-art approaches. Code is available at GitHub
- Abstract(参考訳): 近年は印象的な成果を上げつつも、単写式手書き画像生成は、単一の参照画像のみを用いることで、人間の手書きの複雑で多様な特徴を捉えることの難しさから、いまだに困難である。
既存の手法は、視覚的に魅力的で現実的な手書き画像を生成し、複雑な、見えない書き手スタイルに適応し、無関係なノイズを無視しながら、不変なスタイルの特徴(例えば、スラント、ストローク幅、曲率)を分離することに苦慮している。
この問題に対処するために,拡散モデルを用いた新しいワンショット手書き生成であるDenoising Diffusion (CONSTANT) によるパッチコントラスト強化とスタイルアウェア量子化を導入する。
CONSTANTは3つの重要なイノベーションを活用している。
1) 異なる概念を捉えた個別の視覚トークンとしてスタイルをモデル化するスタイル対応量子化(SAQ)モジュール
2 これらのトークンが埋込様式空間において適切に分離され有意義であることを保証するための対照的な目的
3)潜時パッチベースコントラスト(LLatentPCE)の目的は、潜時空間における生成および実際の特徴のマルチスケール空間パッチを整列させることにより、品質と局所構造の改善に寄与する。
ベトナム語向けに提案したVHTGenデータセットを含む複数の言語からのベンチマークデータセットに関する大規模な実験と分析により、新しい参照スタイルに適応し、最先端のアプローチよりもメソッドの高精細な画像を生成することの優位性を実証した。
コードはGitHubで入手できる
関連論文リスト
- ScriptViT: Vision Transformer-Based Personalized Handwriting Generation [0.0]
スタイル付き手書き文字生成は、写実的で、特定のライターのスタイルと整合した手書きテキストを合成することを目的としている。
複数の参照画像からグローバルなスタイルパターンを学習するビジョントランスフォーマー方式のエンコーダを提案する。
次に、これらのスタイルキューをクロスアテンション機構を用いて対象のテキストと統合し、より忠実に意図したスタイルを反映した手書き画像を生成する。
論文 参考訳(メタデータ) (2025-11-23T06:38:23Z) - Autoregressive Styled Text Image Generation, but Make it Reliable [51.09340470015673]
本研究は,最近提案されたHTGの自己回帰トランスフォーマーパラダイムによって達成された,スタイルの忠実さと一般化の両面で有望な成果を生かし,その特性を再現する戦略開発に焦点をあてる。
本研究では,HTGをマルチモーダルなプロンプト条件付き生成タスクとしてフレーミングすることで自己回帰を再考し,視覚との整合性を高めるために特別な入力トークンを導入することで,コンテンツ制御可能性の問題に対処する。
論文 参考訳(メタデータ) (2025-10-27T11:54:23Z) - Zero-Shot Chinese Character Recognition with Hierarchical Multi-Granularity Image-Text Aligning [52.92837273570818]
漢字は独特な構造と構成規則を示しており、表現にきめ細かい意味情報を使用することが可能である。
コントラストパラダイムに基づく階層型多言語画像テキストアライニング(Hi-GITA)フレームワークを提案する。
提案したHi-GITAは既存のゼロショットCCR法より優れている。
論文 参考訳(メタデータ) (2025-05-30T17:39:14Z) - StyleAR: Customizing Multimodal Autoregressive Model for Style-Aligned Text-to-Image Generation [24.588779332021137]
マルチモーダル自己回帰(AR)モデルは、様々な領域で例外的な機能を示している。
スタイルアライメント生成には参照スタイルのイメージとプロンプトが必要である。
提案するARモデルと特別に設計されたデータキュレーション手法を組み合わせた,革新的なアプローチであるStyleARを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:01:15Z) - Towards Visual Text Design Transfer Across Languages [49.78504488452978]
マルチモーダル・スタイル翻訳(MuST-Bench)の新たな課題について紹介する。
MuST-Benchは、視覚テキスト生成モデルが様々な書き込みシステム間で翻訳を行う能力を評価するために設計されたベンチマークである。
そこで我々は,スタイル記述の必要性を解消する多モーダルなスタイル翻訳フレームワークであるSIGILを紹介した。
論文 参考訳(メタデータ) (2024-10-24T15:15:01Z) - TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder [13.695128139074285]
本稿では、テキストプロンプトによる制御可能な画像の作成を可能にする、オーバーフィッティングの軽減によるワンショットパーソナライゼーションの課題に対処する。
パーソナライズ性能を高めるための3つの重要な手法を紹介する。(1)機能障害の促進と過剰適合の緩和のための拡張トークン、(2)言語ドリフトの低減と多様なプロンプト間の一般化性向上のための知識保存損失、(3)効率的なトレーニングのためのSNR重み付きサンプリング。
論文 参考訳(メタデータ) (2024-09-12T17:47:51Z) - Visual Style Prompting with Swapping Self-Attention [26.511518230332758]
本稿では,特定のスタイル要素やニュアンスを維持しつつ,多様な画像を生成する新しい手法を提案する。
denoisingプロセスの間は、クエリを元の機能から保持し、キーと値を、後期の自己アテンション層にある参照機能と交換します。
提案手法は既存のアプローチよりも優れており,参照のスタイルを最もよく反映し,得られた画像がテキストのプロンプトに最も正確に一致することを保証する。
論文 参考訳(メタデータ) (2024-02-20T12:51:17Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。