論文の概要: TPFNet: A Novel Text In-painting Transformer for Text Removal
- arxiv url: http://arxiv.org/abs/2210.14461v2
- Date: Thu, 27 Oct 2022 14:14:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 15:24:14.469997
- Title: TPFNet: A Novel Text In-painting Transformer for Text Removal
- Title(参考訳): TPFNet: テキスト除去のための新しいテキストインペイント変換器
- Authors: Onkar Susladkar, Dhruv Makwana, Gayatri Deshmukh, Sparsh Mittal, Sai
Chandra Teja R, Rekha Singhal
- Abstract要約: 画像からテキストを除去する新しいワンステージ(エンドツーエンド)ネットワークTPFNetを提案する。
第1部は低解像度画像で動作し、第2部は高解像度のテキストフリー画像を予測する。
オックスフォード、SCUT、SCUT-EnsTextのデータセットでは、我々のネットワークは、ほぼすべてのメトリクスに関する提案されたネットワークよりも優れています。
- 参考スコア(独自算出の注目度): 3.7067444579637074
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text erasure from an image is helpful for various tasks such as image editing
and privacy preservation. In this paper, we present TPFNet, a novel one-stage
(end-toend) network for text removal from images. Our network has two parts:
feature synthesis and image generation. Since noise can be more effectively
removed from low-resolution images, part 1 operates on low-resolution images.
The output of part 1 is a low-resolution text-free image. Part 2 uses the
features learned in part 1 to predict a high-resolution text-free image. In
part 1, we use "pyramidal vision transformer" (PVT) as the encoder. Further, we
use a novel multi-headed decoder that generates a high-pass filtered image and
a segmentation map, in addition to a text-free image. The segmentation branch
helps locate the text precisely, and the high-pass branch helps in learning the
image structure. To precisely locate the text, TPFNet employs an adversarial
loss that is conditional on the segmentation map rather than the input image.
On Oxford, SCUT, and SCUT-EnsText datasets, our network outperforms recently
proposed networks on nearly all the metrics. For example, on SCUT-EnsText
dataset, TPFNet has a PSNR (higher is better) of 39.0 and text-detection
precision (lower is better) of 21.1, compared to the best previous technique,
which has a PSNR of 32.3 and precision of 53.2. The source code can be obtained
from https://github.com/CandleLabAI/TPFNet
- Abstract(参考訳): 画像からのテキスト消去は、画像編集やプライバシー保護といった様々なタスクに役立つ。
本稿では,画像からテキストを除去する新しいワンステージ(エンドツーエンド)ネットワークTPFNetを提案する。
我々のネットワークには特徴合成と画像生成という2つの部分がある。
ノイズは低解像度画像からより効果的に除去できるため、パート1は低解像度画像で動作する。
部1の出力は低解像度のテキストフリー画像である。
パート2は、パート1で学んだ機能を使用して、高解像度テキストフリー画像を予測する。
パート1では、エンコーダとして"pyramidal vision transformer"(pvt)を使用します。
さらに,テキストのない画像に加えて,ハイパスフィルタ画像とセグメンテーションマップを生成する新しいマルチヘッドデコーダを用いる。
セグメンテーションブランチはテキストを正確に見つけるのに役立ち、ハイパスブランチは画像構造を学ぶのに役立ちます。
テキストを正確に特定するために、TPFNetは入力画像ではなくセグメンテーションマップに条件付きである逆損失を用いる。
オックスフォード、scut、およびscut-enstextデータセットでは、我々のネットワークは、最近提案されたほぼすべてのメトリクスのネットワークよりも優れています。
例えば、SCUT-EnsTextデータセットでは、TPFNetはPSNRが39.0、テキスト検出精度が21.1、PSNRが32.3、精度が53.2である。
ソースコードはhttps://github.com/CandleLabAI/TPFNetから取得できる。
関連論文リスト
- Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - Context Does Matter: End-to-end Panoptic Narrative Grounding with
Deformable Attention Refined Matching Network [25.511804582983977]
パノラマ・ナララティブ・グラウンディング(PNG)は、高密度なナラティブキャプションに基づいて、画像中の視覚オブジェクトを分割することを目的としている。
Deformable Attention Refined Matching Network (DRMN) と呼ばれる新しい学習フレームワークを提案する。
DRMNは、トップ$k$で最も類似したピクセルの特徴表現を更新した後、変形可能なアテンションネットワークで画素を反復的に再エンコードする。
論文 参考訳(メタデータ) (2023-10-25T13:12:39Z) - BATINet: Background-Aware Text to Image Synthesis and Manipulation
Network [12.924990882126105]
生成したコンテンツが入力背景と一致する背景認識型テキスト2画像(BAT2I)タスクを解析した。
本研究では,背景認識による画像合成・操作ネットワーク (BATINet) を提案する。
我々は,CUBデータセットの質的,定量的な評価を通じて,提案モデルが他の最先端手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-08-11T03:22:33Z) - PSSTRNet: Progressive Segmentation-guided Scene Text Removal Network [1.7259824817932292]
シーンテキスト除去(STR)は、複雑なテキストフォント、色、サイズ、シーンイメージの背景テクスチャのために難しい作業である。
画像中のテキストを反復的に除去するプログレッシブ誘導シーンテキスト除去ネットワーク(PSSTRNet)を提案する。
論文 参考訳(メタデータ) (2023-06-13T15:20:37Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text
Spotting [71.6244869235243]
ほとんどの任意形状のシーンテキストスポッターは、地域提案ネットワーク(RPN)を使用して提案を作成する。
Mask TextSpotter v3は、極端なアスペクト比や不規則な形状のテキストインスタンスを処理できます。
論文 参考訳(メタデータ) (2020-07-18T17:25:50Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z) - SwapText: Image Based Texts Transfer in Scenes [13.475726959175057]
スワップテキスト(SwapText)はシーンイメージ間でテキストを転送するフレームワークである。
前景画像のみにテキストラベルを置換する新しいテキストスワップネットワークを提案する。
生成された前景画像と背景画像を用いて、融合ネットワークにより単語画像を生成する。
論文 参考訳(メタデータ) (2020-03-18T11:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。