論文の概要: STEFANN: Scene Text Editor using Font Adaptive Neural Network
- arxiv url: http://arxiv.org/abs/1903.01192v3
- Date: Wed, 29 Mar 2023 17:30:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-30 20:15:48.871940
- Title: STEFANN: Scene Text Editor using Font Adaptive Neural Network
- Title(参考訳): STEFANN:Fnt Adaptive Neural Networkを用いたシーンテキストエディタ
- Authors: Prasun Roy, Saumik Bhattacharya, Subhankar Ghosh, Umapada Pal
- Abstract要約: 画像中のテキストを文字レベルで修正する手法を提案する。
本稿では,(a)FANnetと(b)Colornetという2つの異なるニューラルネットワークアーキテクチャを提案する。
本手法は画像中のテキストを編集するための統一的なプラットフォームとして機能する。
- 参考スコア(独自算出の注目度): 18.79337509555511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Textual information in a captured scene plays an important role in scene
interpretation and decision making. Though there exist methods that can
successfully detect and interpret complex text regions present in a scene, to
the best of our knowledge, there is no significant prior work that aims to
modify the textual information in an image. The ability to edit text directly
on images has several advantages including error correction, text restoration
and image reusability. In this paper, we propose a method to modify text in an
image at character-level. We approach the problem in two stages. At first, the
unobserved character (target) is generated from an observed character (source)
being modified. We propose two different neural network architectures - (a)
FANnet to achieve structural consistency with source font and (b) Colornet to
preserve source color. Next, we replace the source character with the generated
character maintaining both geometric and visual consistency with neighboring
characters. Our method works as a unified platform for modifying text in
images. We present the effectiveness of our method on COCO-Text and ICDAR
datasets both qualitatively and quantitatively.
- Abstract(参考訳): キャプチャされたシーンにおけるテキスト情報は、シーンの解釈と意思決定において重要な役割を果たす。
シーンに存在する複雑なテキスト領域を検知し、解釈する手法は存在するが、私たちの知る限り、画像中のテキスト情報を修正することを目的とした重要な先行研究は存在しない。
画像に直接テキストを編集する機能には、誤り訂正、テキスト復元、画像再利用性など、いくつかの利点がある。
本稿では,画像中のテキストを文字レベルで修正する手法を提案する。
私たちはその問題を2段階にアプローチする。
当初、未観測文字(ターゲット)は、修正中の観察文字(ソース)から生成される。
我々は2つの異なるニューラルネットワークアーキテクチャを提案する。
(a)FANnetは、ソースフォントと構造整合性を達成し、
b) 原色を保存するためのカラーネット。
次に,隣接キャラクタとの幾何学的・視覚的整合性を維持するために,ソースキャラクタを生成キャラクタに置き換える。
本手法は画像中のテキストを修正する統一プラットフォームとして機能する。
本研究では,COCO-Text と ICDAR データセットの質的,定量的な評価を行った。
関連論文リスト
- CLII: Visual-Text Inpainting via Cross-Modal Predictive Interaction [23.683636588751753]
State-of-the-art inpainting法は主に自然画像用に設計されており、シーンテキスト画像内のテキストを正しく復元することができない。
高品質なシーン画像復元とテキスト補完を実現するために,視覚テキストの塗装作業を特定する。
論文 参考訳(メタデータ) (2024-07-23T06:12:19Z) - Choose What You Need: Disentangled Representation Learning for Scene Text Recognition, Removal and Editing [47.421888361871254]
シーンテキスト画像は、スタイル情報(フォント、背景)だけでなく、コンテンツ情報(文字、テクスチャ)も含む。
従来の表現学習手法では、全てのタスクに密結合した特徴を使い、結果として準最適性能が得られる。
本稿では,適応性向上のための2種類の特徴を両立させることを目的としたDAR(Disentangled Representation Learning framework)を提案する。
論文 参考訳(メタデータ) (2024-05-07T15:00:11Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Improving Diffusion Models for Scene Text Editing with Dual Encoders [44.12999932588205]
シーンテキスト編集(Scene text editing)は、特定のテキストを画像に修正または挿入する作業である。
拡散モデルの最近の進歩は、これらの制限をテキスト条件による画像編集で克服することを約束している。
デュアルエンコーダ設計による事前学習拡散モデルを改善するためにDIFFSTEを提案する。
論文 参考訳(メタデータ) (2023-04-12T02:08:34Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - ManiTrans: Entity-Level Text-Guided Image Manipulation via Token-wise
Semantic Alignment and Generation [97.36550187238177]
実世界の実体レベルにおけるテキスト誘導画像操作に関する新しい課題について検討する。
このタスクは、(1)テキスト記述と整合したエンティティを編集すること、(2)テキスト関連領域を保存すること、(3)操作されたエンティティを自然に画像にマージすること、の3つの基本的な要件を課している。
本フレームワークでは,操作対象の画像領域を特定するためのセマンティックアライメントモジュールと,視覚と言語の関係の整合を支援するセマンティックアライメントモジュールを備えている。
論文 参考訳(メタデータ) (2022-04-09T09:01:19Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - RewriteNet: Realistic Scene Text Image Generation via Editing Text in
Real-world Image [17.715320405808935]
シーンテキスト編集(STE)は、テキストとスタイルの複雑な介入のために難しい作業である。
本稿ではRewriteNetと呼ばれる新しい表現学習型STEモデルを提案する。
我々の実験は、RewriteNetが他の比較よりも定量的かつ定性的な性能を達成することを示した。
論文 参考訳(メタデータ) (2021-07-23T06:32:58Z) - SwapText: Image Based Texts Transfer in Scenes [13.475726959175057]
スワップテキスト(SwapText)はシーンイメージ間でテキストを転送するフレームワークである。
前景画像のみにテキストラベルを置換する新しいテキストスワップネットワークを提案する。
生成された前景画像と背景画像を用いて、融合ネットワークにより単語画像を生成する。
論文 参考訳(メタデータ) (2020-03-18T11:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。