論文の概要: Exploring Stroke-Level Modifications for Scene Text Editing
- arxiv url: http://arxiv.org/abs/2212.01982v1
- Date: Mon, 5 Dec 2022 02:10:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 17:26:00.375800
- Title: Exploring Stroke-Level Modifications for Scene Text Editing
- Title(参考訳): シーンテキスト編集のためのストロークレベル修正の探索
- Authors: Yadong Qu, Qingfeng Tan, Hongtao Xie, Jianjun Xu, Yuxin Wang, Yongdong
Zhang
- Abstract要約: シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
- 参考スコア(独自算出の注目度): 86.33216648792964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene text editing (STE) aims to replace text with the desired one while
preserving background and styles of the original text. However, due to the
complicated background textures and various text styles, existing methods fall
short in generating clear and legible edited text images. In this study, we
attribute the poor editing performance to two problems: 1) Implicit decoupling
structure. Previous methods of editing the whole image have to learn different
translation rules of background and text regions simultaneously. 2) Domain gap.
Due to the lack of edited real scene text images, the network can only be well
trained on synthetic pairs and performs poorly on real-world images. To handle
the above problems, we propose a novel network by MOdifying Scene Text image at
strokE Level (MOSTEL). Firstly, we generate stroke guidance maps to explicitly
indicate regions to be edited. Different from the implicit one by directly
modifying all the pixels at image level, such explicit instructions filter out
the distractions from background and guide the network to focus on editing
rules of text regions. Secondly, we propose a Semi-supervised Hybrid Learning
to train the network with both labeled synthetic images and unpaired real scene
text images. Thus, the STE model is adapted to real-world datasets
distributions. Moreover, two new datasets (Tamper-Syn2k and Tamper-Scene) are
proposed to fill the blank of public evaluation datasets. Extensive experiments
demonstrate that our MOSTEL outperforms previous methods both qualitatively and
quantitatively. Datasets and code will be available at
https://github.com/qqqyd/MOSTEL.
- Abstract(参考訳): シーンテキスト編集(ste)は、原文の背景やスタイルを維持しつつ、テキストを所望のテキストに置き換えることを目的としている。
しかし、背景テクスチャや様々なテキストスタイルが複雑であるため、既存の手法では、明瞭で読みやすい編集テキスト画像を生成するのに不足している。
本研究では,編集性能の低下を2つの問題とみなす。
1)暗黙の分離構造。
画像全体を編集するには、背景とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
2) ドメインギャップ。
編集された実シーンのテキスト画像がないため、ネットワークは合成ペアでしか訓練できず、実世界の画像では性能が劣る。
上記の問題に対処するために,Scene Text image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
まず、編集すべき領域を明確に示すために、ストロークガイダンスマップを生成する。
画像レベルで全てのピクセルを直接修正することで暗黙のピクセルとは異なり、これらの明示的な指示は背景から邪魔を取り除き、ネットワークがテキスト領域の編集ルールにフォーカスするようにガイドする。
次に,ラベル付き合成画像と実シーンのテキスト画像の両方を用いてネットワークを学習するセミ教師付きハイブリッド学習を提案する。
したがって、STEモデルは実世界のデータセット分布に適応する。
さらに、公共評価データセットの空白を埋めるために、2つの新しいデータセット(Tamper-Syn2kとTamper-Scene)を提案する。
実験の結果,MOSTELは従来手法よりも質的,定量的に優れていることがわかった。
データセットとコードはhttps://github.com/qqyd/mostelで入手できる。
関連論文リスト
- SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild [55.619708995575785]
自然景観画像のテキストは、以下の4つの重要な基準を満たす必要がある。
生成されたテキストは、自然なシーンOCR(Optical Character Recognition)タスクのトレーニングを容易にする。
生成された画像は、テキスト検出やテキスト認識といったOCRタスクにおいて優れている。
論文 参考訳(メタデータ) (2025-01-06T12:09:08Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Style Generation: Image Synthesis based on Coarsely Matched Texts [10.939482612568433]
テキストベースのスタイル生成と呼ばれる新しいタスクを導入し、2段階の生成対角ネットワークを提案する。
第1ステージは、文特徴付き全体画像スタイルを生成し、第2ステージは、合成特徴付きで生成されたスタイルを洗練する。
本研究は,テキスト・イメージアライメントやストーリー・ビジュアライゼーションといった様々な応用によって実証された。
論文 参考訳(メタデータ) (2023-09-08T21:51:11Z) - Improving Diffusion Models for Scene Text Editing with Dual Encoders [44.12999932588205]
シーンテキスト編集(Scene text editing)は、特定のテキストを画像に修正または挿入する作業である。
拡散モデルの最近の進歩は、これらの制限をテキスト条件による画像編集で克服することを約束している。
デュアルエンコーダ設計による事前学習拡散モデルを改善するためにDIFFSTEを提案する。
論文 参考訳(メタデータ) (2023-04-12T02:08:34Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - Zero-shot Image-to-Image Translation [57.46189236379433]
手動のプロンプトを使わずに元の画像を保存できる画像から画像への変換法であるpix2pix-zeroを提案する。
本稿では,拡散過程全体を通して入力画像の相互注意マップを維持することを目的とした,相互注意誘導を提案する。
本手法では,これらの編集のための追加のトレーニングを必要とせず,既存のテキスト・画像拡散モデルを直接使用することができる。
論文 参考訳(メタデータ) (2023-02-06T18:59:51Z) - ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation [97.36550187238177]
実世界の実体レベルにおけるテキスト誘導画像操作に関する新しい課題について検討する。
このタスクは、(1)テキスト記述と整合したエンティティを編集すること、(2)テキスト関連領域を保存すること、(3)操作されたエンティティを自然に画像にマージすること、の3つの基本的な要件を課している。
本フレームワークでは,操作対象の画像領域を特定するためのセマンティックアライメントモジュールと,視覚と言語の関係の整合を支援するセマンティックアライメントモジュールを備えている。
論文 参考訳(メタデータ) (2022-04-09T09:01:19Z) - RewriteNet: Realistic Scene Text Image Generation via Editing Text in
Real-world Image [17.715320405808935]
シーンテキスト編集(STE)は、テキストとスタイルの複雑な介入のために難しい作業である。
本稿ではRewriteNetと呼ばれる新しい表現学習型STEモデルを提案する。
我々の実験は、RewriteNetが他の比較よりも定量的かつ定性的な性能を達成することを示した。
論文 参考訳(メタデータ) (2021-07-23T06:32:58Z) - SwapText: Image Based Texts Transfer in Scenes [13.475726959175057]
スワップテキスト(SwapText)はシーンイメージ間でテキストを転送するフレームワークである。
前景画像のみにテキストラベルを置換する新しいテキストスワップネットワークを提案する。
生成された前景画像と背景画像を用いて、融合ネットワークにより単語画像を生成する。
論文 参考訳(メタデータ) (2020-03-18T11:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。