論文の概要: One-Shot Diffusion Mimicker for Handwritten Text Generation
- arxiv url: http://arxiv.org/abs/2409.04004v2
- Date: Wed, 11 Sep 2024 11:52:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 19:48:16.804600
- Title: One-Shot Diffusion Mimicker for Handwritten Text Generation
- Title(参考訳): 手書きテキスト生成のためのワンショット拡散ミカ
- Authors: Gang Dai, Yifan Zhang, Quhui Ke, Qiangya Guo, Shuangping Huang,
- Abstract要約: 既存の手書きテキスト生成方法は、スタイル参照として10以上の手書きサンプルを必要とすることが多い。
ワンショット生成はプロセスを大幅に単純化するが、単一のサンプルから作家のスタイルを正確に把握することが困難であるため、大きな課題となる。
1つの参照サンプルのみで任意の書体スタイルを模倣できる手書きテキストを生成するワンショット拡散ミカ(One-shot Diffusion Mimicker)を提案する。
- 参考スコア(独自算出の注目度): 5.845883883415509
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing handwritten text generation methods often require more than ten handwriting samples as style references. However, in practical applications, users tend to prefer a handwriting generation model that operates with just a single reference sample for its convenience and efficiency. This approach, known as "one-shot generation", significantly simplifies the process but poses a significant challenge due to the difficulty of accurately capturing a writer's style from a single sample, especially when extracting fine details from the characters' edges amidst sparse foreground and undesired background noise. To address this problem, we propose a One-shot Diffusion Mimicker (One-DM) to generate handwritten text that can mimic any calligraphic style with only one reference sample. Inspired by the fact that high-frequency information of the individual sample often contains distinct style patterns (e.g., character slant and letter joining), we develop a novel style-enhanced module to improve the style extraction by incorporating high-frequency components from a single sample. We then fuse the style features with the text content as a merged condition for guiding the diffusion model to produce high-quality handwritten text images. Extensive experiments demonstrate that our method can successfully generate handwriting scripts with just one sample reference in multiple languages, even outperforming previous methods using over ten samples. Our source code is available at https://github.com/dailenson/One-DM.
- Abstract(参考訳): 既存の手書きテキスト生成方法は、スタイル参照として10以上の手書きサンプルを必要とすることが多い。
しかし,現実的な応用では,利用者は手書き生成モデルを好む傾向にあり,その利便性と効率性のため,単一の参照サンプルだけで動作させる。
このアプローチは「ワンショット生成(one-shot generation)」と呼ばれ、処理を著しく単純化するが、1つのサンプルから作家のスタイルを正確に捉えることの難しさ、特にスパースフォアグラウンドと望ましくない背景雑音の中で文字の端から詳細を抽出することの難しさから、大きな課題を生んでいる。
この問題に対処するために,手書きテキストを生成するワンショット拡散ミミカ (One-shot Diffusion Mimicker, One-DM) を提案する。
個々のサンプルの高周波情報は、しばしば異なるスタイルパターン(例えば、文字スラント、文字接合)を含んでいるという事実に触発され、単一サンプルから高周波成分を取り入れてスタイル抽出を改善する新しいスタイル強化モジュールを開発した。
次に、拡散モデルを誘導し、高品質な手書きテキスト画像を生成するための統合条件として、テキストコンテンツとスタイル特徴を融合させる。
大規模な実験により,本手法は複数の言語で1つのサンプル参照で手書き文字を生成することができた。
ソースコードはhttps://github.com/dailenson/One-DM.comで公開されています。
関連論文リスト
- DiffusionPen: Towards Controlling the Style of Handwritten Text Generation [7.398476020996681]
DiffusionPen (DiffPen) は遅延拡散モデルに基づく5ショットスタイルの手書きテキスト生成手法である。
提案手法は,文字と文体の特徴の両面を抽出し,現実的な手書きサンプルを生成する。
提案手法は,既存の手法を質的かつ定量的に上回り,その付加データにより手書き文字認識(HTR)システムの性能を向上させることができる。
論文 参考訳(メタデータ) (2024-09-09T20:58:25Z) - Learning to Generate Text in Arbitrary Writing Styles [6.7308816341849695]
言語モデルは、潜在的に小さな文章サンプルに基づいて、著者固有のスタイルでテキストを作成することが望ましい。
本稿では,テクスチャ的特徴を捉えた対照的に訓練された表現を用いて,ターゲットスタイルのテキストを生成するための言語モデルを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:58:52Z) - Visual Captioning at Will: Describing Images and Videos Guided by a Few
Stylized Sentences [49.66987347397398]
Few-Shot Stylized Visual Captioningは,任意のスタイルでキャプションを生成することを目的としている。
本稿では,条件付きエンコーダ-デコーダ言語モデルとビジュアルプロジェクションモジュールを用いたFS-StyleCapというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-31T04:26:01Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - Stylized Data-to-Text Generation: A Case Study in the E-Commerce Domain [53.22419717434372]
本稿では,特定のスタイルに従ってコヒーレントテキストを生成することを目的とした新しいタスク,すなわちスタイル化されたデータ・テキスト生成を提案する。
このタスクは、生成されたテキストのロジック、構造化されていないスタイル参照、バイアスのあるトレーニングサンプルという3つの課題のため、簡単ではない。
本稿では,論理計画型データ埋め込み,マスク型スタイル埋め込み,非バイアス型スタイリングテキスト生成の3つのコンポーネントからなる,新しいスタイル付きデータ・テキスト生成モデルであるStyleD2Tを提案する。
論文 参考訳(メタデータ) (2023-05-05T03:02:41Z) - Handwritten Text Generation from Visual Archetypes [25.951540903019467]
Few-Shotスタイルの手書きテキスト生成のためのTransformerベースのモデルを提案する。
我々は,大規模な合成データセット上で,特定の事前学習を活用することで,目に見えない作者の書跡の堅牢な表現を得る。
論文 参考訳(メタデータ) (2023-03-27T14:58:20Z) - Diff-Font: Diffusion Model for Robust One-Shot Font Generation [110.45944936952309]
Diff-Fontという拡散モデルに基づく新しいワンショットフォント生成手法を提案する。
提案するモデルは,フォントライブラリ全体を生成することを目的として,参照として1つのサンプルのみを与える。
十分に訓練されたDiff-Fontは、フォントギャップやフォントのバリエーションに対して堅牢であるだけでなく、難しい文字生成において有望なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-12-12T13:51:50Z) - SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and
Out-of-Vocabulary Text [35.83345711291558]
本稿では,任意の長文と語彙外文に対して,パラメータ化および制御可能な手書きスタイルを合成する手法を提案する。
我々は、容易に入手可能な印刷スタイルの画像を提供することで、テキストコンテンツを埋め込むことにより、コンテンツの多様性を柔軟に達成することができる。
本手法は,学習語彙に含まれない単語を,様々な新しいスタイルで合成することができる。
論文 参考訳(メタデータ) (2022-02-23T12:13:27Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - One-shot Compositional Data Generation for Low Resource Handwritten Text
Recognition [10.473427493876422]
低リソース手書きテキスト認識は、わずかな注釈付きデータと非常に限られた言語情報のために難しい問題です。
本稿では,ベイズプログラム学習に基づくデータ生成手法を用いてこの問題に対処する。
大量の注釈付き画像を必要とする従来型の手法とは対照的に,各記号のサンプルを1つだけ,所望のアルファベットから生成することが可能である。
論文 参考訳(メタデータ) (2021-05-11T18:53:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。