論文の概要: PSGText: Stroke-Guided Scene Text Editing with PSP Module
- arxiv url: http://arxiv.org/abs/2310.13366v1
- Date: Fri, 20 Oct 2023 09:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 23:46:26.646786
- Title: PSGText: Stroke-Guided Scene Text Editing with PSP Module
- Title(参考訳): psgtext:pspモジュールによるストローク誘導シーンテキスト編集
- Authors: Felix Liawi, Yun-Da Tsai, Guan-Lun Lu, Shou-De Lin
- Abstract要約: Scene Text Editingは、画像中のテキストを、元のテキストの背景とスタイルを保存しながら、新しい所望のテキストで置き換えることを目的としている。
本稿では,テキスト画像間でテキストを転送する3段階フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.151658495779136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene Text Editing (STE) aims to substitute text in an image with new desired
text while preserving the background and styles of the original text. However,
present techniques present a notable challenge in the generation of edited text
images that exhibit a high degree of clarity and legibility. This challenge
primarily stems from the inherent diversity found within various text types and
the intricate textures of complex backgrounds. To address this challenge, this
paper introduces a three-stage framework for transferring texts across text
images. Initially, we introduce a text-swapping network that seamlessly
substitutes the original text with the desired replacement. Subsequently, we
incorporate a background inpainting network into our framework. This
specialized network is designed to skillfully reconstruct background images,
effectively addressing the voids left after the removal of the original text.
This process meticulously preserves visual harmony and coherence in the
background. Ultimately, the synthesis of outcomes from the text-swapping
network and the background inpainting network is achieved through a fusion
network, culminating in the creation of the meticulously edited final image. A
demo video is included in the supplementary material.
- Abstract(参考訳): STE(Scene Text Editing)は、画像中のテキストを、元のテキストの背景とスタイルを保存しながら、新しい所望のテキストに置き換えることを目的としている。
しかし,本手法は,高い明瞭度と妥当性を示す編集テキスト画像の生成において,顕著な課題を呈している。
この課題は主に、様々なテキストタイプや複雑な背景の複雑なテクスチャに見られる固有の多様性に由来する。
そこで本稿では,テキスト画像間のテキスト転送のための3段階フレームワークを提案する。
まず,テキストスワッピングネットワークを導入して,テキストの置き換えをシームレスに行う。
その後、我々のフレームワークに背景塗装ネットワークを組み込む。
この特化ネットワークは、背景画像の再構築を巧みに行い、原文削除後の空白を効果的に解決する。
このプロセスは、背景の視覚的調和とコヒーレンスを注意深く保存する。
最終的に、テキストスワッピングネットワークと背景塗装ネットワークの結果の合成は、融合ネットワークを介して達成され、微妙に編集された最終画像の作成が完了する。
補足資料にはデモビデオが含まれている。
関連論文リスト
- First Creating Backgrounds Then Rendering Texts: A New Paradigm for Visual Text Blending [5.3798706094384725]
背景作成とテキストのレンダリングの両方を含む新しいビジュアルテキストブレンディングパラダイムを提案する。
具体的には、背景生成装置を開発し、高忠実でテキストフリーな自然画像を生成する。
また,シーンテキスト検出のためのシーンテキストデータセット合成など,本手法に基づくダウンストリームアプリケーションについても検討する。
論文 参考訳(メタデータ) (2024-10-14T05:23:43Z) - Zero-Painter: Training-Free Layout Control for Text-to-Image Synthesis [63.757624792753205]
レイアウト条件のテキスト-画像合成のためのZero-Painterを提案する。
本手法では,オブジェクトマスクと個々の記述とグローバルテキストプロンプトを組み合わせることで,忠実度の高い画像を生成する。
論文 参考訳(メタデータ) (2024-06-06T13:02:00Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Scene Text Image Super-Resolution via Content Perceptual Loss and
Criss-Cross Transformer Blocks [48.81850740907517]
テキスト対応のテキスト・スーパー・リゾリューション・フレームワークであるTATSRについて述べる。
Criss-Cross Transformer Blocks (CCTBs) と新しい Content Perceptual (CP) Loss を用いて、ユニークなテキスト特性を効果的に学習する。
認識精度と人間の知覚の両方の観点から、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-10-13T11:48:45Z) - Prompt-to-Prompt Image Editing with Cross Attention Control [41.26939787978142]
本稿では,テキストのみによる編集を行う直感的なプロンプト・プロンプト編集フレームワークを提案する。
様々な画像やプロンプトに対して結果を示し、高品質な合成と忠実さを編集されたプロンプトに示す。
論文 参考訳(メタデータ) (2022-08-02T17:55:41Z) - ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation [97.36550187238177]
実世界の実体レベルにおけるテキスト誘導画像操作に関する新しい課題について検討する。
このタスクは、(1)テキスト記述と整合したエンティティを編集すること、(2)テキスト関連領域を保存すること、(3)操作されたエンティティを自然に画像にマージすること、の3つの基本的な要件を課している。
本フレームワークでは,操作対象の画像領域を特定するためのセマンティックアライメントモジュールと,視覚と言語の関係の整合を支援するセマンティックアライメントモジュールを備えている。
論文 参考訳(メタデータ) (2022-04-09T09:01:19Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - STRIVE: Scene Text Replacement In Videos [5.187595026303028]
映像中のシーンテキストを深層移動と学習光度変換を用いて置き換えることを提案する。
合成および挑戦的な実ビデオの結果は、現実的なテキストトランスフェール、競争力のある量的および質的なパフォーマンス、代替品と比較して優れた推論速度を示している。
論文 参考訳(メタデータ) (2021-09-06T22:21:40Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - SwapText: Image Based Texts Transfer in Scenes [13.475726959175057]
スワップテキスト(SwapText)はシーンイメージ間でテキストを転送するフレームワークである。
前景画像のみにテキストラベルを置換する新しいテキストスワップネットワークを提案する。
生成された前景画像と背景画像を用いて、融合ネットワークにより単語画像を生成する。
論文 参考訳(メタデータ) (2020-03-18T11:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。