論文の概要: APRNet: Attention-based Pixel-wise Rendering Network for Photo-Realistic
Text Image Generation
- arxiv url: http://arxiv.org/abs/2203.07705v1
- Date: Tue, 15 Mar 2022 07:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 14:50:03.614541
- Title: APRNet: Attention-based Pixel-wise Rendering Network for Photo-Realistic
Text Image Generation
- Title(参考訳): aprnet:フォトリアリスティックテキスト画像生成のための注意に基づくピクセルワイズレンダリングネットワーク
- Authors: Yangming Shi, Haisong Ding, Kai Chen, Qiang Huo
- Abstract要約: スタイル誘導テキスト画像生成は、参照画像の外観を模倣してテキスト画像を合成しようとする。
本稿では,スタイル画像の背景と前景の色パターンをコンテンツ画像に転送し,写真リアルテキスト画像を生成することに焦点を当てる。
- 参考スコア(独自算出の注目度): 11.186226578337125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Style-guided text image generation tries to synthesize text image by
imitating reference image's appearance while keeping text content unaltered.
The text image appearance includes many aspects. In this paper, we focus on
transferring style image's background and foreground color patterns to the
content image to generate photo-realistic text image. To achieve this goal, we
propose 1) a content-style cross attention based pixel sampling approach to
roughly mimicking the style text image's background; 2) a pixel-wise style
modulation technique to transfer varying color patterns of the style image to
the content image spatial-adaptively; 3) a cross attention based multi-scale
style fusion approach to solving text foreground misalignment issue between
style and content images; 4) an image patch shuffling strategy to create style,
content and ground truth image tuples for training. Experimental results on
Chinese handwriting text image synthesis with SCUT-HCCDoc and CASIA-OLHWDB
datasets demonstrate that the proposed method can improve the quality of
synthetic text images and make them more photo-realistic.
- Abstract(参考訳): スタイルガイドテキスト画像生成は、テキストコンテンツを変更せずに参照画像の外観を模倣してテキスト画像の合成を試みる。
テキスト画像の外観は多くの側面を含む。
本稿では,スタイル画像の背景と前景の色パターンをコンテンツ画像に転送し,写真リアルテキスト画像を生成することに焦点を当てる。
この目標を達成するために
1) テキスト画像の背景を大まかに模倣するコンテンツスタイルのクロスアテンションに基づく画素サンプリング手法
2) スタイル画像の異なる色パターンを空間的適応的にコンテンツ画像に転送する画素毎のスタイル変調技術
3) スタイルとコンテンツ画像間の不一致問題を解決するためのクロス・アテンションに基づくマルチスケールスタイル融合アプローチ
4) トレーニングのためのスタイル,コンテンツ,真実のイメージタプルを作成するためのイメージパッチシャッフル戦略。
SCUT-HCCDocとCASIA-OLHWDBデータセットを用いた中国語手書きテキスト画像合成実験の結果,提案手法は合成テキスト画像の品質を向上し,より写真リアリスティックにすることができることを示した。
関連論文リスト
- Beyond Color and Lines: Zero-Shot Style-Specific Image Variations with Coordinated Semantics [3.9717825324709413]
スタイルは、主に色、ブラシストローク、照明といった芸術的要素の観点から検討されてきた。
本研究では,コーディネート・セマンティクスを用いた画像変化のためのゼロショット・スキームを提案する。
論文 参考訳(メタデータ) (2024-10-24T08:34:57Z) - StyleMamba : State Space Model for Efficient Text-driven Image Style Transfer [9.010012117838725]
StyleMambaは、テキストプロンプトを対応する視覚スタイルに変換する効率的な画像スタイル転送フレームワークである。
既存のテキストガイドによるスタイリングには、数百のトレーニングイテレーションが必要で、多くのコンピューティングリソースが必要です。
論文 参考訳(メタデータ) (2024-05-08T12:57:53Z) - Style Aligned Image Generation via Shared Attention [61.121465570763085]
本稿では,一連の生成画像間のスタイルアライメントを確立する技術であるStyleAlignedを紹介する。
拡散過程において、最小限の注意共有を生かして、T2Iモデル内の画像間のスタイル整合性を維持する。
本手法は,多種多様なスタイルやテキストのプロンプトにまたがって評価を行い,高品質で忠実であることを示す。
論文 参考訳(メタデータ) (2023-12-04T18:55:35Z) - ControlStyle: Text-Driven Stylized Image Generation Using Diffusion
Priors [105.37795139586075]
そこで本研究では,テキスト駆動型スタイリング画像生成という,テキスト・イメージ・モデルをスタイリングするための新しいタスクを提案する。
トレーニング可能な変調ネットワークで事前訓練されたテキスト・ツー・イメージモデルをアップグレードすることで,新しい拡散モデル(ControlStyle)を提案する。
実験では、より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性が示されています。
論文 参考訳(メタデータ) (2023-11-09T15:50:52Z) - TextPainter: Multimodal Text Image Generation with Visual-harmony and
Text-comprehension for Poster Design [50.8682912032406]
本研究では,テキスト画像を生成するための新しいマルチモーダルアプローチであるTextPainterを紹介する。
TextPainterは、グローバルなローカル背景画像をスタイルのヒントとして取り、テキスト画像生成を視覚調和でガイドする。
約80Kのポスターに文レベルのバウンディングボックスとテキストの内容が付加されたPosterT80Kデータセットを構築した。
論文 参考訳(メタデータ) (2023-08-09T06:59:29Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - CLIPstyler: Image Style Transfer with a Single Text Condition [34.24876359759408]
既存のニューラルスタイル転送法では、スタイル画像のテクスチャ情報をコンテンツ画像に転送するために参照スタイル画像が必要である。
そこで本稿では,スタイルイメージを必要とせず,所望のスタイルをテキストで記述した上でのみ,スタイル転送を可能にする新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-01T09:48:53Z) - RewriteNet: Realistic Scene Text Image Generation via Editing Text in
Real-world Image [17.715320405808935]
シーンテキスト編集(STE)は、テキストとスタイルの複雑な介入のために難しい作業である。
本稿ではRewriteNetと呼ばれる新しい表現学習型STEモデルを提案する。
我々の実験は、RewriteNetが他の比較よりも定量的かつ定性的な性能を達成することを示した。
論文 参考訳(メタデータ) (2021-07-23T06:32:58Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - SwapText: Image Based Texts Transfer in Scenes [13.475726959175057]
スワップテキスト(SwapText)はシーンイメージ間でテキストを転送するフレームワークである。
前景画像のみにテキストラベルを置換する新しいテキストスワップネットワークを提案する。
生成された前景画像と背景画像を用いて、融合ネットワークにより単語画像を生成する。
論文 参考訳(メタデータ) (2020-03-18T11:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。