Fugu-MT 論文翻訳(概要): Progressive Scene Text Erasing with Self-Supervision

論文の概要: Progressive Scene Text Erasing with Self-Supervision

arxiv url: http://arxiv.org/abs/2207.11469v1
Date: Sat, 23 Jul 2022 09:05:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-26 14:31:17.775494
Title: Progressive Scene Text Erasing with Self-Supervision
Title（参考訳）: 自己スーパービジョンによるプログレッシブシーンテキスト消去
Authors: Xiangcheng Du and Zhao Zhou and Yingbin Zheng and Xingjiao Wu and Tianlong Ma and Cheng Jin
Abstract要約: シーンテキスト消去は、シーンイメージからテキストコンテンツを消去しようとする。現在の最先端テキスト消去モデルは、大規模な合成データに基づいて訓練されている。我々は、未ラベルの現実世界のシーンテキスト画像に特徴表現のための自己スーパービジョンを採用する。
参考スコア（独自算出の注目度）: 7.118419154170154
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scene text erasing seeks to erase text contents from scene images and current state-of-the-art text erasing models are trained on large-scale synthetic data. Although data synthetic engines can provide vast amounts of annotated training samples, there are differences between synthetic and real-world data. In this paper, we employ self-supervision for feature representation on unlabeled real-world scene text images. A novel pretext task is designed to keep consistent among text stroke masks of image variants. We design the Progressive Erasing Network in order to remove residual texts. The scene text is erased progressively by leveraging the intermediate generated results which provide the foundation for subsequent higher quality results. Experiments show that our method significantly improves the generalization of the text erasing task and achieves state-of-the-art performance on public benchmarks.
Abstract（参考訳）: シーン画像からテキスト内容を消去しようとするシーンテキスト消去と、大規模合成データに基づいて現在最先端のテキスト消去モデルを訓練する。データ合成エンジンは大量の注釈付きトレーニングサンプルを提供するが、合成データと実世界のデータには違いがある。本稿では,無ラベル実世界シーンテキスト画像の特徴表現に自己スーパービジョンを用いる。画像変形のテキストストロークマスク間で一貫性を保つために、新しいプリテキストタスクが設計されている。残余テキストを削除するために,プログレッシブ消去ネットワークを設計する。その後の高品質な結果の基礎となる中間生成結果を活用することにより、シーンテキストを徐々に消去する。実験の結果,本手法はテキスト消去タスクの一般化を著しく改善し,公開ベンチマーク上での最先端性能を実現する。

関連論文リスト

TextGuider: Training-Free Guidance for Text Rendering via Attention Alignment [68.91073792449201]
そこで本研究では,テキストの正確かつ完全な出現を促すトレーニング不要な方法であるTextGuiderを提案する。具体的には,多モード拡散変換器(MM-DiT)モデルにおける注意パターンを解析し,特に画像に描画することを意図したテキスト関連トークンについて検討する。テスト時間テキストレンダリングでは,OCR精度とCLIPスコアが大幅に向上し,高い結果が得られた。
論文参考訳（メタデータ） (2025-12-10T06:18:30Z)
OTR: Synthesizing Overlay Text Dataset for Text Removal [8.844699137494105]
シーンテキスト以外の領域に適用可能なテキスト除去ベンチマークを合成する手法を提案する。我々のデータセットは、オブジェクト認識された配置と視覚言語モデル生成コンテンツを使用して複雑な背景にテキストを描画する。
論文参考訳（メタデータ） (2025-10-03T07:44:07Z)
TextDestroyer: A Training- and Annotation-Free Diffusion Method for Destroying Anomal Text from Images [84.08181780666698]
TextDestroyerは、シーンテキスト破壊のためのトレーニングおよびアノテーションなしのメソッドである。提案手法は,復元前のガウス分布を用いて遅延開始符号中のテキスト領域をスクランブルする。 TextDestroyerの利点は、(1)労働集約型データアノテーションとリソース集約型トレーニングを排除し、(2)より徹底的なテキスト破壊を実現し、認識可能なトレースを防止し、(3)より優れた一般化能力を示し、現実世界のシーンと生成された画像の両方でうまく機能する。
論文参考訳（メタデータ） (2024-11-01T04:41:00Z)
WAS: Dataset and Methods for Artistic Text Segmentation [57.61335995536524]
本稿では,芸術的テキストセグメンテーションの課題に焦点を当て,実際の芸術的テキストセグメンテーションデータセットを構築する。本稿では,モデルが特別な形状のストローク領域を無視するのを防ぐために,レイヤワイド・モーメント・クエリを用いたデコーダを提案する。また,大域構造に焦点を合わせるために,骨格支援ヘッドを提案する。
論文参考訳（メタデータ） (2024-07-31T18:29:36Z)
DeepEraser: Deep Iterative Context Mining for Generic Text Eraser [103.39279154750172]
DeepEraserは反復操作によってイメージ内のテキストを消去するリカレントアーキテクチャである。 DeepEraserは1.4Mのパラメータしか持たず、エンドツーエンドでトレーニングされている。
論文参考訳（メタデータ） (2024-02-29T12:39:04Z)
Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文参考訳（メタデータ） (2024-02-27T01:57:09Z)
Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文参考訳（メタデータ） (2023-11-28T06:51:28Z)
Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。 Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文参考訳（メタデータ） (2022-12-05T02:10:59Z)
Reading and Writing: Discriminative and Generative Modeling for Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%～20.2%向上させる。提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文参考訳（メタデータ） (2022-07-01T03:50:26Z)
Self-Supervised Text Erasing with Controllable Image Synthesis [33.60862002159276]
我々は、新しい自己教師型テキスト消去フレームワークを提案することによって、教師なしシナリオを研究する。まず,様々なスタイルのテキストを用いた合成画像を生成するために,スタイル認識型画像合成関数を設計する。合成データと実世界のデータ間のテキストスタイルのギャップを埋めるために、合成機構を制御するためのポリシーネットワークを構築する。提案手法はPosterEraseと広く使われているSCUT-Entextデータセットで広く評価されている。
論文参考訳（メタデータ） (2022-04-27T07:21:55Z)
Stroke-Based Scene Text Erasing Using Synthetic Data [0.0]
シーンテキスト消去は、自然画像の適切なコンテンツでテキスト領域を置き換えることができる。大規模な実世界のシーンテキスト削除データセットがないため、既存のメソッドが十分に機能しない。我々は、合成テキストの完全活用を強化し、改良された合成テキストエンジンによって生成されたデータセットにのみモデルをトレーニングする。このモデルは、境界ボックスが設けられたシーン画像中のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器で自動シーンテキスト消去を行うことができる。
論文参考訳（メタデータ） (2021-04-23T09:29:41Z)
Scene text removal via cascaded text stroke detection and erasing [19.306751704904705]
近年の学習ベースアプローチでは,シーンテキスト削除作業の性能向上が期待できる。そこで本研究では,テキストストロークの正確な検出に基づく新しい「エンドツーエンド」フレームワークを提案する。
論文参考訳（メタデータ） (2020-11-19T11:05:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。