論文の概要: GANwriting: Content-Conditioned Generation of Styled Handwritten Word
Images
- arxiv url: http://arxiv.org/abs/2003.02567v2
- Date: Tue, 21 Jul 2020 19:40:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 07:18:42.331164
- Title: GANwriting: Content-Conditioned Generation of Styled Handwritten Word
Images
- Title(参考訳): GANwriting:手書き文字画像のコンテンツ記述型生成
- Authors: Lei Kang, Pau Riba, Yaxing Wang, Mar\c{c}al Rusi\~nol, Alicia Forn\'es
and Mauricio Villegas
- Abstract要約: 我々は、リアルで多様な人工的に書かれた手書きの単語を作ることに一歩近づいた。
書体スタイルの特徴とテキストコンテンツの両方で生成過程を条件付けることにより,信頼できる手書きの単語画像を生成する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 10.183347908690504
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Although current image generation methods have reached impressive quality
levels, they are still unable to produce plausible yet diverse images of
handwritten words. On the contrary, when writing by hand, a great variability
is observed across different writers, and even when analyzing words scribbled
by the same individual, involuntary variations are conspicuous. In this work,
we take a step closer to producing realistic and varied artificially rendered
handwritten words. We propose a novel method that is able to produce credible
handwritten word images by conditioning the generative process with both
calligraphic style features and textual content. Our generator is guided by
three complementary learning objectives: to produce realistic images, to
imitate a certain handwriting style and to convey a specific textual content.
Our model is unconstrained to any predefined vocabulary, being able to render
whatever input word. Given a sample writer, it is also able to mimic its
calligraphic features in a few-shot setup. We significantly advance over prior
art and demonstrate with qualitative, quantitative and human-based evaluations
the realistic aspect of our synthetically produced images.
- Abstract(参考訳): 現在の画像生成手法は印象的な品質レベルに達しているが、手書きの単語の多種多様な画像を生成することはできない。
反対に、手で書く場合、異なる作家間で大きな変動が観察され、同じ個人によって書き起こされた単語を分析しても、不随意の変動は目立たない。
本研究は, 現実的かつ多様な手書き文字を生成するための一歩を踏み出したものである。
書体スタイルの特徴とテキストコンテンツの両方で生成過程を条件付けることにより,信頼できる手書きの単語画像を生成する新しい手法を提案する。
本生成装置は,現実的な画像の生成,特定の手書きスタイルの模倣,特定のテキスト内容の伝達という,3つの補完的な学習目標によって誘導される。
我々のモデルは事前に定義された語彙に制約されず、任意の入力語を描画することができる。
サンプルライターが与えられたら、数ショットのセットアップでその書体機能を模倣することもできる。
先行技術を大きく進歩させ, 合成画像の現実的な側面を質的, 定量的, 人為的評価で実証した。
関連論文リスト
- Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。
双曲型視覚言語モデルのための構成的包摂学習を提案する。
数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文 参考訳(メタデータ) (2024-10-09T14:12:50Z) - RealCustom++: Representing Images as Real-Word for Real-Time Customization [80.04828124070418]
テキスト・ツー・イメージのカスタマイズは、テキストのセマンティクスと主題の外観の両方に合わせた新しいイメージを合成することを目的としている。
既存の作品は擬単語のパラダイムに従っており、特定の主題を擬単語として表現する。
そこで我々はRealCustom++と呼ばれる新しいリアルワードパラダイムを提案し,その代わりに課題を非コンフリクトなリアルワードとして表現する。
論文 参考訳(メタデータ) (2024-08-19T07:15:44Z) - DreamStyler: Paint by Style Inversion with Text-to-Image Diffusion
Models [11.164432246850247]
本稿では,芸術的な画像合成のための新しいフレームワークであるDreamStylerを紹介する。
DreamStylerはテキストと画像の合成とスタイル転送の両方に長けている。
コンテンツとスタイルのガイダンスによって、DreamStylerは様々なスタイル参照に対応する柔軟性を示す。
論文 参考訳(メタデータ) (2023-09-13T13:13:29Z) - Text-Guided Synthesis of Eulerian Cinemagraphs [81.20353774053768]
テキスト記述からシネマグラフを作成する完全自動化された方法であるText2Cinemagraphを紹介する。
連続した動きと反復的なテクスチャを示す流れの川や漂流する雲などの流体要素のシネマグラフに焦点を当てる。
論文 参考訳(メタデータ) (2023-07-06T17:59:31Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - Word-As-Image for Semantic Typography [41.380457098839926]
単語・アズ・イメージ(Word-as-image)は、単語のイラストが単語の意味を視覚化するセマンティック・タイポグラフィー技法である。
本稿では,単語・アズ・イメージのイラストを自動生成する手法を提案する。
論文 参考訳(メタデータ) (2023-03-03T09:59:25Z) - Inversion-Based Style Transfer with Diffusion Models [78.93863016223858]
以前の任意の例として誘導された芸術的画像生成法は、しばしば形状変化の制御や要素の伝達に失敗する。
画像のキー情報を効率よく正確に学習できるインバージョンベースのスタイル転送手法(InST)を提案する。
論文 参考訳(メタデータ) (2022-11-23T18:44:25Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z) - An Image is Worth One Word: Personalizing Text-to-Image Generation using
Textual Inversion [60.05823240540769]
テキスト・ツー・イメージモデルは、自然言語による創造をガイドする前例のない自由を提供する。
ここでは、そのような創造的な自由を可能にするシンプルなアプローチを提示します。
一つの単語の埋め込みが、ユニークで多様な概念を捉えるのに十分であることを示す。
論文 参考訳(メタデータ) (2022-08-02T17:50:36Z) - Content and Style Aware Generation of Text-line Images for Handwriting
Recognition [4.301658883577544]
視覚的外観とテキストコンテンツの両方を条件とした手書きテキストライン画像の生成法を提案する。
本手法では,多彩な手書きスタイルの長いテキストラインサンプルを作成できる。
論文 参考訳(メタデータ) (2022-04-12T05:52:03Z) - SLOGAN: Handwriting Style Synthesis for Arbitrary-Length and
Out-of-Vocabulary Text [35.83345711291558]
本稿では,任意の長文と語彙外文に対して,パラメータ化および制御可能な手書きスタイルを合成する手法を提案する。
我々は、容易に入手可能な印刷スタイルの画像を提供することで、テキストコンテンツを埋め込むことにより、コンテンツの多様性を柔軟に達成することができる。
本手法は,学習語彙に含まれない単語を,様々な新しいスタイルで合成することができる。
論文 参考訳(メタデータ) (2022-02-23T12:13:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。