論文の概要: Diffusion models for Handwriting Generation
- arxiv url: http://arxiv.org/abs/2011.06704v1
- Date: Fri, 13 Nov 2020 00:31:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 23:34:36.062180
- Title: Diffusion models for Handwriting Generation
- Title(参考訳): 筆跡生成のための拡散モデル
- Authors: Troy Luhman, Eric Luhman
- Abstract要約: 本稿では,手書き文字生成のための拡散確率モデルを提案する。
本手法では,テキスト認識,書き手スタイル,あるいは敵対的損失関数の使用は不要である。
本モデルでは,画像データから直接文字スタイリスティックな特徴を組み込むことができ,サンプリング時のユーザインタラクションを不要にすることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we propose a diffusion probabilistic model for handwriting
generation. Diffusion models are a class of generative models where samples
start from Gaussian noise and are gradually denoised to produce output. Our
method of handwriting generation does not require using any text-recognition
based, writer-style based, or adversarial loss functions, nor does it require
training of auxiliary networks. Our model is able to incorporate writer
stylistic features directly from image data, eliminating the need for user
interaction during sampling. Experiments reveal that our model is able to
generate realistic , high quality images of handwritten text in a similar style
to a given writer. Our implementation can be found at
https://github.com/tcl9876/Diffusion-Handwriting-Generation
- Abstract(参考訳): 本稿では,手書き文字生成のための拡散確率モデルを提案する。
拡散モデルは生成モデルの一種であり、サンプルはガウスノイズから始まり、徐々に変形して出力を生成する。
本手法では, テキスト認識, 書き手スタイル, 敵対的損失関数を一切必要とせず, 補助的ネットワークの訓練も必要としない。
私たちのモデルは、画像データから直接ライターのスタイル的機能を組み込むことができ、サンプリング中のユーザインタラクションを不要にします。
実験の結果,本モデルでは,手書き文字の写実的で高品質な画像を生成することができることがわかった。
私たちの実装はhttps://github.com/tcl9876/Diffusion-Handwriting-Generationで確認できます。
関連論文リスト
- Prompt-Propose-Verify: A Reliable Hand-Object-Interaction Data
Generation Framework using Foundational Models [0.0]
テキストプロンプトに条件付けされた拡散モデルは、複雑な詳細で現実的な画像を生成する。
しかし、これらの事前訓練されたモデルのほとんどは、手や歯などの人間の特徴に関して、正確な画像を生成することができない。
論文 参考訳(メタデータ) (2023-12-23T12:59:22Z) - Generative Pre-training for Speech with Flow Matching [81.59952572752248]
我々は,フローマッチングとマスク条件を併用した60k時間の無転写音声に対して,SpeechFlowという生成モデルを事前学習した。
実験結果から,事前学習した生成モデルをタスク固有のデータで微調整し,音声強調,分離,合成に関する既存の専門家モデルに適合または超えることを示す。
論文 参考訳(メタデータ) (2023-10-25T03:40:50Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - Text-to-Image Diffusion Models are Zero-Shot Classifiers [8.26990105697146]
ゼロショット分類器として評価する手法を提案し,テキスト・画像拡散モデルについて検討した。
本手法を安定拡散およびイメージnに適用し,モデル知識のきめ細かい面を探索する。
彼らは幅広いゼロショット画像分類データセットでCLIPと競合する。
論文 参考訳(メタデータ) (2023-03-27T14:15:17Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - DiffusER: Discrete Diffusion via Edit-based Reconstruction [88.62707047517914]
DiffusERは、拡散モデルに基づくテキストの編集ベースの生成モデルである。
機械翻訳、要約、スタイル転送にまたがるいくつかのタスクにおいて、自動回帰モデルと競合する可能性がある。
また、標準的な自己回帰モデルに適さないような、他の種類の世代も実行することができる。
論文 参考訳(メタデータ) (2022-10-30T16:55:23Z) - What is the Reward for Handwriting? -- Handwriting Generation by
Imitation Learning [12.9611801481722]
今後の計画能力に配慮した手書き文字生成を実現するために,強化学習フレームワークを用いた。
このアルゴリズムにはGAIL(Generative Adversarial mimicion Learning)を用いる。
言い換えれば、GAILを通じて、手書きの例から手書き生成プロセスの報酬を理解することができる。
論文 参考訳(メタデータ) (2020-09-23T07:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。