論文の概要: OTR: Synthesizing Overlay Text Dataset for Text Removal
- arxiv url: http://arxiv.org/abs/2510.02787v1
- Date: Fri, 03 Oct 2025 07:44:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.303674
- Title: OTR: Synthesizing Overlay Text Dataset for Text Removal
- Title(参考訳): OTR:テキスト削除のためのオーバーレイテキストデータセットの合成
- Authors: Jan Zdenek, Wataru Shimoda, Kota Yamaguchi,
- Abstract要約: シーンテキスト以外の領域に適用可能なテキスト除去ベンチマークを合成する手法を提案する。
我々のデータセットは、オブジェクト認識された配置と視覚言語モデル生成コンテンツを使用して複雑な背景にテキストを描画する。
- 参考スコア(独自算出の注目度): 8.844699137494105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text removal is a crucial task in computer vision with applications such as privacy preservation, image editing, and media reuse. While existing research has primarily focused on scene text removal in natural images, limitations in current datasets hinder out-of-domain generalization or accurate evaluation. In particular, widely used benchmarks such as SCUT-EnsText suffer from ground truth artifacts due to manual editing, overly simplistic text backgrounds, and evaluation metrics that do not capture the quality of generated results. To address these issues, we introduce an approach to synthesizing a text removal benchmark applicable to domains other than scene texts. Our dataset features text rendered on complex backgrounds using object-aware placement and vision-language model-generated content, ensuring clean ground truth and challenging text removal scenarios. The dataset is available at https://huggingface.co/datasets/cyberagent/OTR .
- Abstract(参考訳): テキストの削除は、プライバシ保護、画像編集、メディアの再利用など、コンピュータビジョンにおいて重要なタスクである。
既存の研究は主に自然画像におけるシーンテキストの除去に焦点を当てているが、現在のデータセットの制限は領域外一般化や正確な評価を妨げている。
特に、SCUT-EnsTextのような広く使われているベンチマークは、手作業による編集、過度に単純化されたテキストの背景、生成した結果の品質を捉えない評価指標などにより、真相のアーティファクトに悩まされている。
これらの問題に対処するため,シーンテキスト以外の領域に適用可能なテキスト除去ベンチマークを合成する手法を提案する。
我々のデータセットは、オブジェクト認識された配置と視覚言語モデル生成コンテンツを使用して複雑な背景にテキストを描画し、クリーングラウンドの真実と挑戦的なテキスト削除シナリオを確実にする。
データセットはhttps://huggingface.co/datasets/cyberagent/OTR で公開されている。
関連論文リスト
- Inverse Scene Text Removal [5.892066196730197]
Scene text removal (STR) は、画像からテキスト要素を消去することを目的としている。
STRは通常テキスト領域を検出し、theninpaintします。
Inverse STR (ISTR) を検証し,2値分類におけるSTR処理画像と焦点を解析する。
論文 参考訳(メタデータ) (2025-06-26T04:32:35Z) - DeepEraser: Deep Iterative Context Mining for Generic Text Eraser [103.39279154750172]
DeepEraserは反復操作によってイメージ内のテキストを消去するリカレントアーキテクチャである。
DeepEraserは1.4Mのパラメータしか持たず、エンドツーエンドでトレーニングされている。
論文 参考訳(メタデータ) (2024-02-29T12:39:04Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Self-supervised Scene Text Segmentation with Object-centric Layered
Representations Augmented by Text Regions [22.090074821554754]
本稿では,オブジェクト中心の表現を階層的に分離し,画像からテキストや背景に分割する自己教師付きシーンテキストセグメンテーションアルゴリズムを提案する。
いくつかの公開シーンのテキストデータセットにおいて、この手法は最先端の教師なしセグメンテーションアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-08-25T05:00:05Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Progressive Scene Text Erasing with Self-Supervision [7.118419154170154]
シーンテキスト消去は、シーンイメージからテキストコンテンツを消去しようとする。
現在の最先端テキスト消去モデルは、大規模な合成データに基づいて訓練されている。
我々は、未ラベルの現実世界のシーンテキスト画像に特徴表現のための自己スーパービジョンを採用する。
論文 参考訳(メタデータ) (2022-07-23T09:05:13Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - A Simple and Strong Baseline: Progressively Region-based Scene Text
Removal Networks [72.32357172679319]
本稿では, Progressively Region-based scene Text eraser (PERT)を提案する。
PERTはSTRタスクをいくつかの消去段階に分解する。
PERTは、テキストフリー領域の完全性を保証するために、リージョンベースの修正戦略を導入している。
論文 参考訳(メタデータ) (2021-06-24T14:06:06Z) - Stroke-Based Scene Text Erasing Using Synthetic Data [0.0]
シーンテキスト消去は、自然画像の適切なコンテンツでテキスト領域を置き換えることができる。
大規模な実世界のシーンテキスト削除データセットがないため、既存のメソッドが十分に機能しない。
我々は、合成テキストの完全活用を強化し、改良された合成テキストエンジンによって生成されたデータセットにのみモデルをトレーニングする。
このモデルは、境界ボックスが設けられたシーン画像中のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器で自動シーンテキスト消去を行うことができる。
論文 参考訳(メタデータ) (2021-04-23T09:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。