論文の概要: RewriteNet: Realistic Scene Text Image Generation via Editing Text in
Real-world Image
- arxiv url: http://arxiv.org/abs/2107.11041v1
- Date: Fri, 23 Jul 2021 06:32:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-26 13:54:42.702014
- Title: RewriteNet: Realistic Scene Text Image Generation via Editing Text in
Real-world Image
- Title(参考訳): rewritenet:実世界画像におけるテキスト編集による写実的シーンテキスト生成
- Authors: Junyeop Lee, Yoonsik Kim, Seonghyeon Kim, Moonbin Yim, Seung Shin,
Gayoung Lee, Sungrae Park
- Abstract要約: シーンテキスト編集(STE)は、テキストとスタイルの複雑な介入のために難しい作業である。
本稿ではRewriteNetと呼ばれる新しい表現学習型STEモデルを提案する。
我々の実験は、RewriteNetが他の比較よりも定量的かつ定性的な性能を達成することを示した。
- 参考スコア(独自算出の注目度): 17.715320405808935
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Scene text editing (STE), which converts a text in a scene image into the
desired text while preserving an original style, is a challenging task due to a
complex intervention between text and style. To address this challenge, we
propose a novel representational learning-based STE model, referred to as
RewriteNet that employs textual information as well as visual information. We
assume that the scene text image can be decomposed into content and style
features where the former represents the text information and style represents
scene text characteristics such as font, alignment, and background. Under this
assumption, we propose a method to separately encode content and style features
of the input image by introducing the scene text recognizer that is trained by
text information. Then, a text-edited image is generated by combining the style
feature from the original image and the content feature from the target text.
Unlike previous works that are only able to use synthetic images in the
training phase, we also exploit real-world images by proposing a
self-supervised training scheme, which bridges the domain gap between synthetic
and real data. Our experiments demonstrate that RewriteNet achieves better
quantitative and qualitative performance than other comparisons. Moreover, we
validate that the use of text information and the self-supervised training
scheme improves text switching performance. The implementation and dataset will
be publicly available.
- Abstract(参考訳): シーン画像中のテキストを元のスタイルを維持しながら所望のテキストに変換するシーンテキスト編集(ste)は、テキストとスタイル間の複雑な介入により困難な課題である。
そこで本研究では,視覚情報だけでなくテキスト情報も利用するrewritenetと呼ばれる,新しい表現学習に基づくsteモデルを提案する。
シーンテキスト画像は、前者がテキスト情報を表し、スタイルがフォント、アライメント、背景といったシーンテキストの特徴を表す内容とスタイルの特徴に分解できると仮定する。
そこで本研究では,テキスト情報から学習したシーン認識器を導入することにより,入力画像の内容とスタイルの特徴を分離エンコードする手法を提案する。
そして、原画像からのスタイル特徴と対象テキストからのコンテンツ特徴とを組み合わせることにより、テキスト編集画像を生成する。
トレーニング段階で合成画像のみを使用できる従来の作品とは異なり、合成データと実データの間のドメインギャップを埋める自己教師付きトレーニングスキームを提案することで、実世界のイメージも活用する。
我々の実験は、RewriteNetが他の比較よりも定量的かつ定性的な性能を達成することを示した。
また,テキスト情報の利用と自己教師付き学習方式がテキストの切り替え性能を向上させることを検証した。
実装とデータセットは公開される予定だ。
関連論文リスト
- Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - ControlStyle: Text-Driven Stylized Image Generation Using Diffusion
Priors [105.37795139586075]
そこで本研究では,テキスト駆動型スタイリング画像生成という,テキスト・イメージ・モデルをスタイリングするための新しいタスクを提案する。
トレーニング可能な変調ネットワークで事前訓練されたテキスト・ツー・イメージモデルをアップグレードすることで,新しい拡散モデル(ControlStyle)を提案する。
実験では、より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性が示されています。
論文 参考訳(メタデータ) (2023-11-09T15:50:52Z) - Style Generation: Image Synthesis based on Coarsely Matched Texts [10.939482612568433]
テキストベースのスタイル生成と呼ばれる新しいタスクを導入し、2段階の生成対角ネットワークを提案する。
第1ステージは、文特徴付き全体画像スタイルを生成し、第2ステージは、合成特徴付きで生成されたスタイルを洗練する。
本研究は,テキスト・イメージアライメントやストーリー・ビジュアライゼーションといった様々な応用によって実証された。
論文 参考訳(メタデータ) (2023-09-08T21:51:11Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - APRNet: Attention-based Pixel-wise Rendering Network for Photo-Realistic
Text Image Generation [11.186226578337125]
スタイル誘導テキスト画像生成は、参照画像の外観を模倣してテキスト画像を合成しようとする。
本稿では,スタイル画像の背景と前景の色パターンをコンテンツ画像に転送し,写真リアルテキスト画像を生成することに焦点を当てる。
論文 参考訳(メタデータ) (2022-03-15T07:48:34Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - SwapText: Image Based Texts Transfer in Scenes [13.475726959175057]
スワップテキスト(SwapText)はシーンイメージ間でテキストを転送するフレームワークである。
前景画像のみにテキストラベルを置換する新しいテキストスワップネットワークを提案する。
生成された前景画像と背景画像を用いて、融合ネットワークにより単語画像を生成する。
論文 参考訳(メタデータ) (2020-03-18T11:02:17Z) - STEFANN: Scene Text Editor using Font Adaptive Neural Network [18.79337509555511]
画像中のテキストを文字レベルで修正する手法を提案する。
本稿では,(a)FANnetと(b)Colornetという2つの異なるニューラルネットワークアーキテクチャを提案する。
本手法は画像中のテキストを編集するための統一的なプラットフォームとして機能する。
論文 参考訳(メタデータ) (2019-03-04T11:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。