論文の概要: SwapText: Image Based Texts Transfer in Scenes
- arxiv url: http://arxiv.org/abs/2003.08152v1
- Date: Wed, 18 Mar 2020 11:02:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 12:42:42.888314
- Title: SwapText: Image Based Texts Transfer in Scenes
- Title(参考訳): swaptext: シーン内の画像ベースのテキスト転送
- Authors: Qiangpeng Yang, Hongsheng Jin, Jun Huang, Wei Lin
- Abstract要約: スワップテキスト(SwapText)はシーンイメージ間でテキストを転送するフレームワークである。
前景画像のみにテキストラベルを置換する新しいテキストスワップネットワークを提案する。
生成された前景画像と背景画像を用いて、融合ネットワークにより単語画像を生成する。
- 参考スコア(独自算出の注目度): 13.475726959175057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Swapping text in scene images while preserving original fonts, colors, sizes
and background textures is a challenging task due to the complex interplay
between different factors. In this work, we present SwapText, a three-stage
framework to transfer texts across scene images. First, a novel text swapping
network is proposed to replace text labels only in the foreground image.
Second, a background completion network is learned to reconstruct background
images. Finally, the generated foreground image and background image are used
to generate the word image by the fusion network. Using the proposing
framework, we can manipulate the texts of the input images even with severe
geometric distortion. Qualitative and quantitative results are presented on
several scene text datasets, including regular and irregular text datasets. We
conducted extensive experiments to prove the usefulness of our method such as
image based text translation, text image synthesis, etc.
- Abstract(参考訳): オリジナルのフォント、色、サイズ、背景テクスチャを保存しながらシーンイメージにテキストをスワップすることは、異なる要因間の複雑な相互作用のために難しい課題である。
本研究では,シーンイメージ間でテキストを転送する3段階フレームワークであるSwapTextを紹介する。
まず,前景画像にのみテキストラベルを置換するために,新しいテキストスワップネットワークを提案する。
次に、背景完了ネットワークを学習して背景画像を再構成する。
最後に、生成された前景画像と背景画像を用いて、融合ネットワークにより単語画像を生成する。
提案フレームワークを用いて,重度の幾何学的歪みであっても入力画像のテキストを操作できる。
定性的かつ定量的な結果は、正規および不規則なテキストデータセットを含むいくつかのシーンテキストデータセットに表示される。
我々は,画像ベーステキスト翻訳やテキスト画像合成などの手法の有用性を証明するため,広範な実験を行った。
関連論文リスト
- SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild [55.619708995575785]
自然景観画像のテキストは、以下の4つの重要な基準を満たす必要がある。
生成されたテキストは、自然なシーンOCR(Optical Character Recognition)タスクのトレーニングを容易にする。
生成された画像は、テキスト検出やテキスト認識といったOCRタスクにおいて優れている。
論文 参考訳(メタデータ) (2025-01-06T12:09:08Z) - First Creating Backgrounds Then Rendering Texts: A New Paradigm for Visual Text Blending [5.3798706094384725]
背景作成とテキストのレンダリングの両方を含む新しいビジュアルテキストブレンディングパラダイムを提案する。
具体的には、背景生成装置を開発し、高忠実でテキストフリーな自然画像を生成する。
また,シーンテキスト検出のためのシーンテキストデータセット合成など,本手法に基づくダウンストリームアプリケーションについても検討する。
論文 参考訳(メタデータ) (2024-10-14T05:23:43Z) - CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction [23.683636588751753]
State-of-the-art inpainting法は主に自然画像用に設計されており、シーンテキスト画像内のテキストを正しく復元することができない。
高品質なシーン画像復元とテキスト補完を実現するために,視覚テキストの塗装作業を特定する。
論文 参考訳(メタデータ) (2024-07-23T06:12:19Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - PSGText: Stroke-Guided Scene Text Editing with PSP Module [4.151658495779136]
Scene Text Editingは、画像中のテキストを、元のテキストの背景とスタイルを保存しながら、新しい所望のテキストで置き換えることを目的としている。
本稿では,テキスト画像間でテキストを転送する3段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T09:15:26Z) - TextDiffuser: Diffusion Models as Text Painters [118.30923824681642]
我々は、背景に忠実な視覚的に魅力的なテキストで画像を生成することに焦点を当てたTextDiffuserを紹介した。
我々は,OCRアノテーションを用いた最初の大規模テキスト画像データセットであるMARIO-10Mに,1000万の画像テキストペアをコントリビュートする。
テキストプロンプトのみまたはテキストテンプレート画像と併用して高品質なテキスト画像を作成し,テキストによる不完全な画像の再構成を行う,テキストディフューザは柔軟かつ制御可能であることを示す。
論文 参考訳(メタデータ) (2023-05-18T10:16:19Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - RewriteNet: Realistic Scene Text Image Generation via Editing Text in
Real-world Image [17.715320405808935]
シーンテキスト編集(STE)は、テキストとスタイルの複雑な介入のために難しい作業である。
本稿ではRewriteNetと呼ばれる新しい表現学習型STEモデルを提案する。
我々の実験は、RewriteNetが他の比較よりも定量的かつ定性的な性能を達成することを示した。
論文 参考訳(メタデータ) (2021-07-23T06:32:58Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。