論文の概要: Scene Style Text Editing
- arxiv url: http://arxiv.org/abs/2304.10097v1
- Date: Thu, 20 Apr 2023 05:36:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 14:18:22.004359
- Title: Scene Style Text Editing
- Title(参考訳): シーンスタイルのテキスト編集
- Authors: Tonghua Su, Fuxiang Yang, Xiang Zhou, Donglin Di, Zhongjie Wang,
Songze Li
- Abstract要約: クアッドネット(QuadNet)は、前景のテキストスタイルを潜在機能空間に埋め込んで調整するフレームワークである。
実験によると、QuadNetは写真リアルなフォアグラウンドテキストを生成し、現実世界のシーンでソーステキストの影を避けることができる。
- 参考スコア(独自算出の注目度): 7.399980683013072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose a task called "Scene Style Text Editing (SSTE)",
changing the text content as well as the text style of the source image while
keeping the original text scene. Existing methods neglect to fine-grained
adjust the style of the foreground text, such as its rotation angle, color, and
font type. To tackle this task, we propose a quadruple framework named
"QuadNet" to embed and adjust foreground text styles in the latent feature
space. Specifically, QuadNet consists of four parts, namely background
inpainting, style encoder, content encoder, and fusion generator. The
background inpainting erases the source text content and recovers the
appropriate background with a highly authentic texture. The style encoder
extracts the style embedding of the foreground text. The content encoder
provides target text representations in the latent feature space to implement
the content edits. The fusion generator combines the information yielded from
the mentioned parts and generates the rendered text images. Practically, our
method is capable of performing promisingly on real-world datasets with merely
string-level annotation. To the best of our knowledge, our work is the first to
finely manipulate the foreground text content and style by deeply semantic
editing in the latent feature space. Extensive experiments demonstrate that
QuadNet has the ability to generate photo-realistic foreground text and avoid
source text shadows in real-world scenes when editing text content.
- Abstract(参考訳): そこで本研究では,原文シーンを維持しながら,テキスト内容と原文画像のテキストスタイルを変更する「シーンスタイルテキスト編集(Scene Style Text Editing, SSTE)」というタスクを提案する。
既存の方法は、回転角度、色、フォントタイプなど、前景のテキストのスタイルを微調整することを無視している。
この課題に対処するために,我々は,前景のテキストスタイルを潜在機能空間に埋め込んで調整する,QuadNetという4重フレームワークを提案する。
具体的には、QuadNetは背景塗装、スタイルエンコーダ、コンテンツエンコーダ、フュージョンジェネレータの4つの部分で構成される。
背景塗装は、ソーステキストコンテンツを消去し、高度に本物のテクスチャで適切な背景を復元する。
スタイルエンコーダは、フォアグラウンドテキストのスタイル埋め込みを抽出する。
コンテンツエンコーダは、コンテンツ編集を実装するために、潜在機能空間にターゲットテキスト表現を提供する。
融合生成装置は、上記部品から得られた情報を合成し、レンダリングされたテキスト画像を生成する。
本手法は,文字列レベルのアノテーションだけで実世界のデータセット上で有望な動作を行うことができる。
私たちの知る限りでは、潜在的な機能領域で深くセマンティック編集することで、前景のテキストコンテンツやスタイルを巧みに操作した最初の作品です。
クワッドネットは、フォトリアリスティックなフォアグラウンドテキストを生成し、テキストコンテンツの編集時に現実世界のシーンでソーステキストの影を避けることができる。
関連論文リスト
- SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild [55.619708995575785]
自然景観画像のテキストは、以下の4つの重要な基準を満たす必要がある。
生成されたテキストは、自然なシーンOCR(Optical Character Recognition)タスクのトレーニングを容易にする。
生成された画像は、テキスト検出やテキスト認識といったOCRタスクにおいて優れている。
論文 参考訳(メタデータ) (2025-01-06T12:09:08Z) - First Creating Backgrounds Then Rendering Texts: A New Paradigm for Visual Text Blending [5.3798706094384725]
背景作成とテキストのレンダリングの両方を含む新しいビジュアルテキストブレンディングパラダイムを提案する。
具体的には、背景生成装置を開発し、高忠実でテキストフリーな自然画像を生成する。
また,シーンテキスト検出のためのシーンテキストデータセット合成など,本手法に基づくダウンストリームアプリケーションについても検討する。
論文 参考訳(メタデータ) (2024-10-14T05:23:43Z) - Choose What You Need: Disentangled Representation Learning for Scene Text Recognition, Removal and Editing [47.421888361871254]
シーンテキスト画像は、スタイル情報(フォント、背景)だけでなく、コンテンツ情報(文字、テクスチャ)も含む。
従来の表現学習手法では、全てのタスクに密結合した特徴を使い、結果として準最適性能が得られる。
本稿では,適応性向上のための2種類の特徴を両立させることを目的としたDAR(Disentangled Representation Learning framework)を提案する。
論文 参考訳(メタデータ) (2024-05-07T15:00:11Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - PSGText: Stroke-Guided Scene Text Editing with PSP Module [4.151658495779136]
Scene Text Editingは、画像中のテキストを、元のテキストの背景とスタイルを保存しながら、新しい所望のテキストで置き換えることを目的としている。
本稿では,テキスト画像間でテキストを転送する3段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T09:15:26Z) - FASTER: A Font-Agnostic Scene Text Editing and Rendering Framework [19.564048493848272]
STE(Scene Text Editing)は、画像中の既存のテキストの変更を主な目的とする、難しい研究課題である。
既存のスタイル変換ベースのアプローチでは、複雑な画像背景、多様なフォント属性、テキスト内の様々な単語長によるサブパー編集性能が示されている。
フォントに依存しない新しいシーンテキスト編集・レンダリングフレームワークであるFASTERを提案し,任意のスタイルや場所のテキストを同時に生成する。
論文 参考訳(メタデータ) (2023-08-05T15:54:06Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation [97.36550187238177]
実世界の実体レベルにおけるテキスト誘導画像操作に関する新しい課題について検討する。
このタスクは、(1)テキスト記述と整合したエンティティを編集すること、(2)テキスト関連領域を保存すること、(3)操作されたエンティティを自然に画像にマージすること、の3つの基本的な要件を課している。
本フレームワークでは,操作対象の画像領域を特定するためのセマンティックアライメントモジュールと,視覚と言語の関係の整合を支援するセマンティックアライメントモジュールを備えている。
論文 参考訳(メタデータ) (2022-04-09T09:01:19Z) - RewriteNet: Realistic Scene Text Image Generation via Editing Text in
Real-world Image [17.715320405808935]
シーンテキスト編集(STE)は、テキストとスタイルの複雑な介入のために難しい作業である。
本稿ではRewriteNetと呼ばれる新しい表現学習型STEモデルを提案する。
我々の実験は、RewriteNetが他の比較よりも定量的かつ定性的な性能を達成することを示した。
論文 参考訳(メタデータ) (2021-07-23T06:32:58Z) - SwapText: Image Based Texts Transfer in Scenes [13.475726959175057]
スワップテキスト(SwapText)はシーンイメージ間でテキストを転送するフレームワークである。
前景画像のみにテキストラベルを置換する新しいテキストスワップネットワークを提案する。
生成された前景画像と背景画像を用いて、融合ネットワークにより単語画像を生成する。
論文 参考訳(メタデータ) (2020-03-18T11:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。