Fugu-MT 論文翻訳(概要): Selective Scene Text Removal

論文の概要: Selective Scene Text Removal

arxiv url: http://arxiv.org/abs/2309.00410v2
Date: Tue, 3 Oct 2023 07:05:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 07:34:22.367851
Title: Selective Scene Text Removal
Title（参考訳）: 選択的シーンテキスト除去
Authors: Hayato Mitani, Akisato Kimura, Seiichi Uchida
Abstract要約: シーンテキスト削除(STR)は、シーン画像中のテキスト領域を削除する画像変換タスクである。本稿では,ユーザが指定したターゲット単語のみを除去する,選択シーンテキスト削除(SSTR)という新しいタスク設定を提案する。
参考スコア（独自算出の注目度）: 12.03150391651337
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scene text removal (STR) is the image transformation task to remove text regions in scene images. The conventional STR methods remove all scene text. This means that the existing methods cannot select text to be removed. In this paper, we propose a novel task setting named selective scene text removal (SSTR) that removes only target words specified by the user. Although SSTR is a more complex task than STR, the proposed multi-module structure enables efficient training for SSTR. Experimental results show that the proposed method can remove target words as expected.
Abstract（参考訳）: シーンテキスト削除(STR)は、シーン画像中のテキスト領域を削除する画像変換タスクである。従来のSTRメソッドは、すべてのシーンテキストを削除する。つまり、既存のメソッドは削除すべきテキストを選択できない。本稿では,ユーザが指定したターゲット語のみを除去する,選択シーンテキスト削除(SSTR)という新しいタスク設定を提案する。 SSTRはSTRよりも複雑なタスクであるが、提案したマルチモジュール構造はSSTRの効率的なトレーニングを可能にする。実験の結果,提案手法は期待通りに対象単語を除去できることがわかった。

関連論文リスト

Inverse Scene Text Removal [5.892066196730197]
Scene text removal (STR) は、画像からテキスト要素を消去することを目的としている。 STRは通常テキスト領域を検出し、theninpaintします。 Inverse STR (ISTR) を検証し,2値分類におけるSTR処理画像と焦点を解析する。
論文参考訳（メタデータ） (2025-06-26T04:32:35Z)
Leveraging Text Localization for Scene Text Removal via Text-aware Masked Image Modeling [44.70973195966149]
既存のシーンテキスト削除(STR)タスクは、高価なピクセルレベルのラベリングのため、トレーニングデータ不足に悩まされる。我々は,低コストなテキスト検出ラベルを用いたSTRモデルの事前学習が可能なテキスト対応マスク付き画像モデリングアルゴリズム(TMIM)を提案する。我々の方法は、他のプリトレイン法より優れ、最先端のパフォーマンス(SCUT-EnsTextの37.35 PSNR)を達成する。
論文参考訳（メタデータ） (2024-09-20T11:52:57Z)
DeepEraser: Deep Iterative Context Mining for Generic Text Eraser [103.39279154750172]
DeepEraserは反復操作によってイメージ内のテキストを消去するリカレントアーキテクチャである。 DeepEraserは1.4Mのパラメータしか持たず、エンドツーエンドでトレーニングされている。
論文参考訳（メタデータ） (2024-02-29T12:39:04Z)
ViTEraser: Harnessing the Power of Vision Transformers for Scene Text Removal with SegMIM Pretraining [58.241008246380254]
シーンテキスト除去(STR)は、自然のシーンにおけるテキストストロークを視覚的に一貫性のある背景に置き換えることを目的としている。最近のSTRアプローチは反復的な改善や明示的なテキストマスクに依存しており、結果としてテキストローカライゼーションの精度に高い複雑さと感度をもたらす。そこで我々は, ViTEraser という, 単純なyet- Effective ViT-based text eraser を提案する。
論文参考訳（メタデータ） (2023-06-21T08:47:20Z)
FETNet: Feature Erasing and Transferring Network for Scene Text Removal [14.763369952265796]
Scene text removal(STR)タスクは、テキスト領域を削除し、画像の背景をスムーズに復元し、プライベート情報保護を目的とする。既存のSTRメソッドの多くはエンコーダデコーダベースのCNNを採用しており、スキップ接続の機能を直接コピーしている。 STRの符号化された特徴を再構成する新しい特徴消去・伝達機構を提案する。
論文参考訳（メタデータ） (2023-06-16T02:38:30Z)
PSSTRNet: Progressive Segmentation-guided Scene Text Removal Network [1.7259824817932292]
シーンテキスト除去(STR)は、複雑なテキストフォント、色、サイズ、シーンイメージの背景テクスチャのために難しい作業である。画像中のテキストを反復的に除去するプログレッシブ誘導シーンテキスト除去ネットワーク(PSSTRNet)を提案する。
論文参考訳（メタデータ） (2023-06-13T15:20:37Z)
Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。 Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文参考訳（メタデータ） (2022-12-05T02:10:59Z)
ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval [66.66400551173619]
単一$textbfVi$sionでクロスモーダル検索シナリオを統合するためのフルトランスフォーマーアーキテクチャを提案する。画像-テキストペアと融合-テキストペアの両方を共通モード空間に埋め込むために、二重対照的な学習損失を発生させる。実験の結果、ViSTAはシーンテキスト認識検索タスクに対して少なくとも$bf8.4%のRecall@1で他のメソッドよりも優れていることがわかった。
論文参考訳（メタデータ） (2022-03-31T03:40:21Z)
A Simple and Strong Baseline: Progressively Region-based Scene Text Removal Networks [72.32357172679319]
本稿では, Progressively Region-based scene Text eraser (PERT)を提案する。 PERTはSTRタスクをいくつかの消去段階に分解する。 PERTは、テキストフリー領域の完全性を保証するために、リージョンベースの修正戦略を導入している。
論文参考訳（メタデータ） (2021-06-24T14:06:06Z)
Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文参考訳（メタデータ） (2021-04-04T07:18:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。