論文の概要: GenText: Unsupervised Artistic Text Generation via Decoupled Font and
Texture Manipulation
- arxiv url: http://arxiv.org/abs/2207.09649v1
- Date: Wed, 20 Jul 2022 04:42:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-21 13:22:02.695027
- Title: GenText: Unsupervised Artistic Text Generation via Decoupled Font and
Texture Manipulation
- Title(参考訳): GenText:デカップリングフォントとテクスチャ操作による教師なしアーティスティックテキスト生成
- Authors: Qirui Huang, Bin Fu, Aozhong zhang, Yu Qiao
- Abstract要約: 我々は,汎用的な芸術的テクストスタイルの転送を実現するために,GenTextという新しいアプローチを提案する。
具体的には、スタイラス化、デスティル化、フォント転送という3つの異なる段階を取り入れています。
ペアの芸術的テキスト画像の取得が困難であることを考えると,本モデルは教師なし環境下で設計されている。
- 参考スコア(独自算出の注目度): 30.654807125764965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic artistic text generation is an emerging topic which receives
increasing attention due to its wide applications. The artistic text can be
divided into three components, content, font, and texture, respectively.
Existing artistic text generation models usually focus on manipulating one
aspect of the above components, which is a sub-optimal solution for
controllable general artistic text generation. To remedy this issue, we propose
a novel approach, namely GenText, to achieve general artistic text style
transfer by separably migrating the font and texture styles from the different
source images to the target images in an unsupervised manner. Specifically, our
current work incorporates three different stages, stylization, destylization,
and font transfer, respectively, into a unified platform with a single powerful
encoder network and two separate style generator networks, one for font
transfer, the other for stylization and destylization. The destylization stage
first extracts the font style of the font reference image, then the font
transfer stage generates the target content with the desired font style.
Finally, the stylization stage renders the resulted font image with respect to
the texture style in the reference image. Moreover, considering the difficult
data acquisition of paired artistic text images, our model is designed under
the unsupervised setting, where all stages can be effectively optimized from
unpaired data. Qualitative and quantitative results are performed on artistic
text benchmarks, which demonstrate the superior performance of our proposed
model. The code with models will become publicly available in the future.
- Abstract(参考訳): 芸術的テキストの自動生成は,その広範囲な応用により注目を集める話題となっている。
芸術的なテキストは、それぞれコンテンツ、フォント、テクスチャの3つの構成要素に分けられる。
既存の芸術的テキスト生成モデルは、通常、上記の構成要素の1つの側面を操作することに焦点を当てている。
この問題を解決するために,異なるソース画像から対象画像へのフォントやテクスチャスタイルを分離的に移行することで,汎用的な芸術的テクスチャスタイルの転送を実現する新しい手法であるGenTextを提案する。
具体的には,1つの強力なエンコーダネットワークと2つの異なるスタイルジェネレータネットワークを備えた統一プラットフォームに,それぞれスタイラス,デスティル化,フォント転送の3つの異なるステージを組み込んでいる。
デスタイライゼーションステージは、まず、フォント参照画像のフォントスタイルを抽出し、その後、フォント転送ステージは、所望のフォントスタイルでターゲットコンテンツを生成する。
最後に、スタイリングステージは、基準画像のテクスチャスタイルに関して、結果のフォント画像をレンダリングする。
また,ペア芸術的テキスト画像の取得が困難であることを考慮すると,すべてのステージを非ペアデータから効果的に最適化可能な教師なし設定で設計する。
質的・定量的な結果が芸術的テキストベンチマークで得られ,提案モデルの優れた性能を示す。
モデル付きコードは将来的に公開される予定だ。
関連論文リスト
- VitaGlyph: Vitalizing Artistic Typography with Flexible Dual-branch Diffusion Models [53.59400446543756]
柔軟な芸術的タイポグラフィーを実現するために,二枝・無訓練の手法であるVitaGlyphを導入する。
VitaGlyphは入力文字を被写体と周囲からなるシーンとして扱い、次に幾何変換の度合いでそれらをレンダリングする。
実験結果から、VitaGlyphは芸術性や可読性の向上だけでなく、複数のカスタマイズ概念を表現できることがわかった。
論文 参考訳(メタデータ) (2024-10-02T16:48:47Z) - FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation [38.730628018627975]
本研究の目的は,多言語フォントにおけるテキストエフェクトの生成である。
与えられた形状を解釈できる新しい形状適応拡散モデルを提案する。
また、生成した参照文字から他へテクスチャを転送するための学習不要な形状適応型エフェクト転送手法を提案する。
論文 参考訳(メタデータ) (2024-06-12T16:43:47Z) - ControlStyle: Text-Driven Stylized Image Generation Using Diffusion
Priors [105.37795139586075]
そこで本研究では,テキスト駆動型スタイリング画像生成という,テキスト・イメージ・モデルをスタイリングするための新しいタスクを提案する。
トレーニング可能な変調ネットワークで事前訓練されたテキスト・ツー・イメージモデルをアップグレードすることで,新しい拡散モデル(ControlStyle)を提案する。
実験では、より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性が示されています。
論文 参考訳(メタデータ) (2023-11-09T15:50:52Z) - TextPainter: Multimodal Text Image Generation with Visual-harmony and
Text-comprehension for Poster Design [50.8682912032406]
本研究では,テキスト画像を生成するための新しいマルチモーダルアプローチであるTextPainterを紹介する。
TextPainterは、グローバルなローカル背景画像をスタイルのヒントとして取り、テキスト画像生成を視覚調和でガイドする。
約80Kのポスターに文レベルのバウンディングボックスとテキストの内容が付加されたPosterT80Kデータセットを構築した。
論文 参考訳(メタデータ) (2023-08-09T06:59:29Z) - FASTER: A Font-Agnostic Scene Text Editing and Rendering Framework [19.564048493848272]
STE(Scene Text Editing)は、画像中の既存のテキストの変更を主な目的とする、難しい研究課題である。
既存のスタイル変換ベースのアプローチでは、複雑な画像背景、多様なフォント属性、テキスト内の様々な単語長によるサブパー編集性能が示されている。
フォントに依存しない新しいシーンテキスト編集・レンダリングフレームワークであるFASTERを提案し,任意のスタイルや場所のテキストを同時に生成する。
論文 参考訳(メタデータ) (2023-08-05T15:54:06Z) - GlyphDiffusion: Text Generation as Image Generation [100.98428068214736]
テキスト誘導画像生成によるテキスト生成のための新しい拡散手法であるGlyphDiffusionを提案する。
私たちのキーとなるアイデアは、ターゲットのテキストを視覚言語コンテンツを含むグリフイメージとしてレンダリングすることです。
また,本モデルでは,近年の拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-04-25T02:14:44Z) - Improving Diffusion Models for Scene Text Editing with Dual Encoders [44.12999932588205]
シーンテキスト編集(Scene text editing)は、特定のテキストを画像に修正または挿入する作業である。
拡散モデルの最近の進歩は、これらの制限をテキスト条件による画像編集で克服することを約束している。
デュアルエンコーダ設計による事前学習拡散モデルを改善するためにDIFFSTEを提案する。
論文 参考訳(メタデータ) (2023-04-12T02:08:34Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - TextStyleBrush: Transfer of Text Aesthetics from a Single Example [16.29689649632619]
本稿では,その外観のあらゆる面からテキスト画像の内容を切り離すための新しいアプローチを提案する。
我々はこの混乱を自己管理的に学ぶ。
以前は特殊な手法で処理されていた異なるテキスト領域で結果を示す。
論文 参考訳(メタデータ) (2021-06-15T19:28:49Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Exploring Font-independent Features for Scene Text Recognition [22.34023249700896]
近年,Scene Text Recognition (STR) が広く研究されている。
最近提案された多くの手法は、シーンテキストの任意の形状、レイアウト、配向に対応するよう特別に設計されている。
フォントの特徴と文字のコンテンツ特徴が絡み合っているこれらの手法は、新しいフォントスタイルのテキストを含むシーンイメージのテキスト認識において、不十分な性能を発揮する。
論文 参考訳(メタデータ) (2020-09-16T03:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。