論文の概要: Improving Diffusion Models for Scene Text Editing with Dual Encoders
- arxiv url: http://arxiv.org/abs/2304.05568v1
- Date: Wed, 12 Apr 2023 02:08:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 16:16:47.932151
- Title: Improving Diffusion Models for Scene Text Editing with Dual Encoders
- Title(参考訳): デュアルエンコーダを用いたシーンテキスト編集のための拡散モデルの改善
- Authors: Jiabao Ji, Guanhua Zhang, Zhaowen Wang, Bairu Hou, Zhifei Zhang, Brian
Price, Shiyu Chang
- Abstract要約: シーンテキスト編集(Scene text editing)は、特定のテキストを画像に修正または挿入する作業である。
拡散モデルの最近の進歩は、これらの制限をテキスト条件による画像編集で克服することを約束している。
デュアルエンコーダ設計による事前学習拡散モデルを改善するためにDIFFSTEを提案する。
- 参考スコア(独自算出の注目度): 44.12999932588205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene text editing is a challenging task that involves modifying or inserting
specified texts in an image while maintaining its natural and realistic
appearance. Most previous approaches to this task rely on style-transfer models
that crop out text regions and feed them into image transfer models, such as
GANs. However, these methods are limited in their ability to change text style
and are unable to insert texts into images. Recent advances in diffusion models
have shown promise in overcoming these limitations with text-conditional image
editing. However, our empirical analysis reveals that state-of-the-art
diffusion models struggle with rendering correct text and controlling text
style. To address these problems, we propose DIFFSTE to improve pre-trained
diffusion models with a dual encoder design, which includes a character encoder
for better text legibility and an instruction encoder for better style control.
An instruction tuning framework is introduced to train our model to learn the
mapping from the text instruction to the corresponding image with either the
specified style or the style of the surrounding texts in the background. Such a
training method further brings our method the zero-shot generalization ability
to the following three scenarios: generating text with unseen font variation,
e.g., italic and bold, mixing different fonts to construct a new font, and
using more relaxed forms of natural language as the instructions to guide the
generation task. We evaluate our approach on five datasets and demonstrate its
superior performance in terms of text correctness, image naturalness, and style
controllability. Our code is publicly available.
https://github.com/UCSB-NLP-Chang/DiffSTE
- Abstract(参考訳): シーンテキスト編集は、自然でリアルな外観を維持しながら、画像中の特定のテキストを修正または挿入する難しいタスクである。
このタスクに対する以前のアプローチのほとんどは、テキスト領域を抽出し、ganなどの画像転送モデルに供給するスタイル転送モデルに依存している。
しかし、これらの手法はテキストスタイルを変更する能力に制限があり、画像にテキストを挿入できない。
拡散モデルの最近の進歩は、これらの制限をテキスト条件による画像編集で克服することを約束している。
しかし,経験的分析により,最先端の拡散モデルが正しいテキストのレンダリングやテキストスタイル制御に苦しむことが明らかとなった。
そこで本研究では,テキストの読みやすさを向上させる文字エンコーダと,スタイル制御を改善する命令エンコーダを含むデュアルエンコーダの設計により,事前学習した拡散モデルを改善するためにdiffsteを提案する。
テキスト命令から対応する画像へのマッピングを、背景にある特定のスタイルまたは周辺テキストのスタイルで学習するために、モデルをトレーニングするために、インストラクションチューニングフレームワークが導入された。
このようなトレーニング手法により,ゼロショットの一般化能力を次の3つのシナリオに適用する。例えば,不明瞭なフォントのバリエーションを持つテキストを生成すること,異なるフォントを混合して新しいフォントを構築すること,生成タスクを案内する命令として,よりリラックスした自然言語形式を使用する。
提案手法を5つのデータセットで評価し,テキストの正確性,画像の自然性,スタイル制御性の観点からその優れた性能を示す。
私たちのコードは公開されています。
https://github.com/UCSB-NLP-Chang/DiffSTE
関連論文リスト
- TextCtrl: Diffusion-based Scene Text Editing with Prior Guidance Control [5.3798706094384725]
テキストを事前の誘導制御で編集する拡散法であるTextCtrlを提案する。
i) きめ細かなテキストスタイルの不整合と頑健なテキスト構造表現を構築することにより、TextCtrlはモデル設計とネットワークトレーニングにスタイル構造ガイダンスを明示的に組み込んで、テキストスタイルの一貫性とレンダリング精度を大幅に向上させる。
実世界のSTE評価ベンチマークの空白を埋めるために、フェアな比較のためにScenePairと呼ばれる最初の実世界の画像ペアデータセットを作成します。
論文 参考訳(メタデータ) (2024-10-14T03:50:39Z) - TextMastero: Mastering High-Quality Scene Text Editing in Diverse Languages and Styles [12.182588762414058]
シーンテキスト編集は、オリジナルのように新たに生成されたテキストのスタイルを維持しながら、画像上のテキストを変更することを目的としている。
最近の研究は拡散モデルを活用し、改善された結果を示しているが、依然として課題に直面している。
emphTextMastero - 潜時拡散モデル(LDM)に基づく多言語シーンテキスト編集アーキテクチャを慎重に設計した。
論文 参考訳(メタデータ) (2024-08-20T08:06:09Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - TextDiffuser-2: Unleashing the Power of Language Models for Text
Rendering [118.30923824681642]
TextDiffuser-2は、テキストレンダリングのための言語モデルのパワーを解き放つことを目的としている。
拡散モデル内の言語モデルを用いて,行レベルでの位置とテキストを符号化する。
我々は広範な実験を行い、GPT-4Vと同様に、ヒトの参加者を含むユーザスタディを取り入れた。
論文 参考訳(メタデータ) (2023-11-28T04:02:40Z) - ControlStyle: Text-Driven Stylized Image Generation Using Diffusion
Priors [105.37795139586075]
そこで本研究では,テキスト駆動型スタイリング画像生成という,テキスト・イメージ・モデルをスタイリングするための新しいタスクを提案する。
トレーニング可能な変調ネットワークで事前訓練されたテキスト・ツー・イメージモデルをアップグレードすることで,新しい拡散モデル(ControlStyle)を提案する。
実験では、より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性が示されています。
論文 参考訳(メタデータ) (2023-11-09T15:50:52Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。