論文の概要: RewriteNet: Realistic Scene Text Image Generation via Editing Text in
Real-world Image
- arxiv url: http://arxiv.org/abs/2107.11041v1
- Date: Fri, 23 Jul 2021 06:32:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-26 13:54:42.702014
- Title: RewriteNet: Realistic Scene Text Image Generation via Editing Text in
Real-world Image
- Title(参考訳): rewritenet:実世界画像におけるテキスト編集による写実的シーンテキスト生成
- Authors: Junyeop Lee, Yoonsik Kim, Seonghyeon Kim, Moonbin Yim, Seung Shin,
Gayoung Lee, Sungrae Park
- Abstract要約: シーンテキスト編集(STE)は、テキストとスタイルの複雑な介入のために難しい作業である。
本稿ではRewriteNetと呼ばれる新しい表現学習型STEモデルを提案する。
我々の実験は、RewriteNetが他の比較よりも定量的かつ定性的な性能を達成することを示した。
- 参考スコア(独自算出の注目度): 17.715320405808935
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scene text editing (STE), which converts a text in a scene image into the
desired text while preserving an original style, is a challenging task due to a
complex intervention between text and style. To address this challenge, we
propose a novel representational learning-based STE model, referred to as
RewriteNet that employs textual information as well as visual information. We
assume that the scene text image can be decomposed into content and style
features where the former represents the text information and style represents
scene text characteristics such as font, alignment, and background. Under this
assumption, we propose a method to separately encode content and style features
of the input image by introducing the scene text recognizer that is trained by
text information. Then, a text-edited image is generated by combining the style
feature from the original image and the content feature from the target text.
Unlike previous works that are only able to use synthetic images in the
training phase, we also exploit real-world images by proposing a
self-supervised training scheme, which bridges the domain gap between synthetic
and real data. Our experiments demonstrate that RewriteNet achieves better
quantitative and qualitative performance than other comparisons. Moreover, we
validate that the use of text information and the self-supervised training
scheme improves text switching performance. The implementation and dataset will
be publicly available.
- Abstract(参考訳): シーン画像中のテキストを元のスタイルを維持しながら所望のテキストに変換するシーンテキスト編集(ste)は、テキストとスタイル間の複雑な介入により困難な課題である。
そこで本研究では,視覚情報だけでなくテキスト情報も利用するrewritenetと呼ばれる,新しい表現学習に基づくsteモデルを提案する。
シーンテキスト画像は、前者がテキスト情報を表し、スタイルがフォント、アライメント、背景といったシーンテキストの特徴を表す内容とスタイルの特徴に分解できると仮定する。
そこで本研究では,テキスト情報から学習したシーン認識器を導入することにより,入力画像の内容とスタイルの特徴を分離エンコードする手法を提案する。
そして、原画像からのスタイル特徴と対象テキストからのコンテンツ特徴とを組み合わせることにより、テキスト編集画像を生成する。
トレーニング段階で合成画像のみを使用できる従来の作品とは異なり、合成データと実データの間のドメインギャップを埋める自己教師付きトレーニングスキームを提案することで、実世界のイメージも活用する。
我々の実験は、RewriteNetが他の比較よりも定量的かつ定性的な性能を達成することを示した。
また,テキスト情報の利用と自己教師付き学習方式がテキストの切り替え性能を向上させることを検証した。
実装とデータセットは公開される予定だ。
関連論文リスト
- TextMastero: Mastering High-Quality Scene Text Editing in Diverse Languages and Styles [12.182588762414058]
シーンテキスト編集は、オリジナルのように新たに生成されたテキストのスタイルを維持しながら、画像上のテキストを変更することを目的としている。
最近の研究は拡散モデルを活用し、改善された結果を示しているが、依然として課題に直面している。
emphTextMastero - 潜時拡散モデル(LDM)に基づく多言語シーンテキスト編集アーキテクチャを慎重に設計した。
論文 参考訳(メタデータ) (2024-08-20T08:06:09Z) - Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - Choose What You Need: Disentangled Representation Learning for Scene Text Recognition, Removal and Editing [47.421888361871254]
シーンテキスト画像は、スタイル情報(フォント、背景)だけでなく、コンテンツ情報(文字、テクスチャ)も含む。
従来の表現学習手法では、全てのタスクに密結合した特徴を使い、結果として準最適性能が得られる。
本稿では,適応性向上のための2種類の特徴を両立させることを目的としたDAR(Disentangled Representation Learning framework)を提案する。
論文 参考訳(メタデータ) (2024-05-07T15:00:11Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - APRNet: Attention-based Pixel-wise Rendering Network for Photo-Realistic
Text Image Generation [11.186226578337125]
スタイル誘導テキスト画像生成は、参照画像の外観を模倣してテキスト画像を合成しようとする。
本稿では,スタイル画像の背景と前景の色パターンをコンテンツ画像に転送し,写真リアルテキスト画像を生成することに焦点を当てる。
論文 参考訳(メタデータ) (2022-03-15T07:48:34Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - SwapText: Image Based Texts Transfer in Scenes [13.475726959175057]
スワップテキスト(SwapText)はシーンイメージ間でテキストを転送するフレームワークである。
前景画像のみにテキストラベルを置換する新しいテキストスワップネットワークを提案する。
生成された前景画像と背景画像を用いて、融合ネットワークにより単語画像を生成する。
論文 参考訳(メタデータ) (2020-03-18T11:02:17Z) - STEFANN: Scene Text Editor using Font Adaptive Neural Network [18.79337509555511]
画像中のテキストを文字レベルで修正する手法を提案する。
本稿では,(a)FANnetと(b)Colornetという2つの異なるニューラルネットワークアーキテクチャを提案する。
本手法は画像中のテキストを編集するための統一的なプラットフォームとして機能する。
論文 参考訳(メタデータ) (2019-03-04T11:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。