論文の概要: What Shape Is Optimal for Masks in Text Removal?
- arxiv url: http://arxiv.org/abs/2511.22499v1
- Date: Thu, 27 Nov 2025 14:34:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.608098
- Title: What Shape Is Optimal for Masks in Text Removal?
- Title(参考訳): テキスト除去におけるマスクの形状は最適か?
- Authors: Hyakka Nakada, Marika Kubota,
- Abstract要約: 本研究では,ハイフレキシブルマスクプロファイルをモデル化し,ベイズ最適化を用いてパラメータを学習する手法を開発した。
また,テキスト領域の最小被覆が最適でないことも判明した。
我々の研究は、手動マスキングのためのユーザーフレンドリーなガイドラインの道を開くことが期待されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advent of generative models has dramatically improved the accuracy of image inpainting. In particular, by removing specific text from document images, reconstructing original images is extremely important for industrial applications. However, most existing methods of text removal focus on deleting simple scene text which appears in images captured by a camera in an outdoor environment. There is little research dedicated to complex and practical images with dense text. Therefore, we created benchmark data for text removal from images including a large amount of text. From the data, we found that text-removal performance becomes vulnerable against mask profile perturbation. Thus, for practical text-removal tasks, precise tuning of the mask shape is essential. This study developed a method to model highly flexible mask profiles and learn their parameters using Bayesian optimization. The resulting profiles were found to be character-wise masks. It was also found that the minimum cover of a text region is not optimal. Our research is expected to pave the way for a user-friendly guideline for manual masking.
- Abstract(参考訳): 生成モデルの出現により、画像インペイントの精度が劇的に向上した。
特に,文書画像から特定のテキストを除去することにより,原画像の再構成が産業アプリケーションにとって極めて重要である。
しかし、既存のテキスト除去手法のほとんどは、屋外環境でカメラが捉えた画像に現れる単純なシーンテキストを削除することに焦点を当てている。
濃密なテキストによる複雑で実用的な画像に関する研究はほとんどない。
そこで我々は大量のテキストを含む画像からテキストを除去するためのベンチマークデータを作成した。
データから,テキスト除去性能がマスクプロファイルの摂動に対して脆弱になることが判明した。
したがって、実践的なテキスト除去作業においては、マスク形状の正確な調整が不可欠である。
本研究では,ハイフレキシブルマスクプロファイルをモデル化し,ベイズ最適化を用いてパラメータを学習する手法を開発した。
結果として得られたプロファイルは、キャラクタワイズマスクであることが判明した。
また,テキスト領域の最小被覆が最適でないことも判明した。
我々の研究は、手動マスキングのためのユーザーフレンドリーなガイドラインの道を開くことが期待されている。
関連論文リスト
- SmartEraser: Remove Anything from Images using Masked-Region Guidance [114.36809682798784]
SmartEraserはMasked-Region Guidanceと呼ばれる新しい削除パラダイムで構築されている。
Masked-Region Guidanceは、削除プロセスのガイダンスとして、入力中のマスクされた領域を保持します。
大規模オブジェクト除去データセットであるSyn4Removalを提案する。
論文 参考訳(メタデータ) (2025-01-14T17:55:12Z) - TextDestroyer: A Training- and Annotation-Free Diffusion Method for Destroying Anomal Text from Images [6.7015658051949]
TextDestroyerは、シーンテキスト破壊のためのトレーニングおよびアノテーションなしのメソッドである。
提案手法は,復元前のガウス分布を用いて遅延開始符号中のテキスト領域をスクランブルする。
TextDestroyerの利点は、(1)労働集約型データアノテーションとリソース集約型トレーニングを排除し、(2)より徹底的なテキスト破壊を実現し、認識可能なトレースを防止し、(3)より優れた一般化能力を示し、現実世界のシーンと生成された画像の両方でうまく機能する。
論文 参考訳(メタデータ) (2024-11-01T04:41:00Z) - DiffSTR: Controlled Diffusion Models for Scene Text Removal [5.790630195329777]
Scene Text removed (STR) は、画像中のテキストの不正使用を防止することを目的としている。
STRは、バウンダリアーティファクト、一貫性のないテクスチャと色、正しいシャドウの保存など、いくつかの課題に直面している。
STRを塗装タスクとして扱う制御ネット拡散モデルを提案する。
拡散モデルを満たすためのマスク事前学習パイプラインを開発した。
論文 参考訳(メタデータ) (2024-10-29T04:20:21Z) - Text2Place: Affordance-aware Text Guided Human Placement [26.041917073228483]
この研究は、textbfSemantic Human Placementと呼ばれる背景シーンにおける現実的な人間の挿入の問題に取り組む。
セマンティックマスクの学習には,テキストから画像への生成モデルから学習したリッチなオブジェクトシーンの先行情報を活用する。
提案手法は,背景と被写体を保存しながら,リアルなシーン構成を生成することができる。
論文 参考訳(メタデータ) (2024-07-22T08:00:06Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - TextDiff: Mask-Guided Residual Diffusion Models for Scene Text Image Super-Resolution [17.95994419104427]
TextDiffは、シーンテキストイメージの超解像度に適した拡散ベースのフレームワークである。
公開ベンチマークデータセット上での最先端(SOTA)パフォーマンスを実現する。
提案するMDDモジュールは,SOTA法により生成されたテキストエッジを効果的にシャープするプラグイン・アンド・プレイである。
論文 参考訳(メタデータ) (2023-08-13T11:02:16Z) - PSSTRNet: Progressive Segmentation-guided Scene Text Removal Network [1.7259824817932292]
シーンテキスト除去(STR)は、複雑なテキストフォント、色、サイズ、シーンイメージの背景テクスチャのために難しい作業である。
画像中のテキストを反復的に除去するプログレッシブ誘導シーンテキスト除去ネットワーク(PSSTRNet)を提案する。
論文 参考訳(メタデータ) (2023-06-13T15:20:37Z) - Stroke-Based Scene Text Erasing Using Synthetic Data [0.0]
シーンテキスト消去は、自然画像の適切なコンテンツでテキスト領域を置き換えることができる。
大規模な実世界のシーンテキスト削除データセットがないため、既存のメソッドが十分に機能しない。
我々は、合成テキストの完全活用を強化し、改良された合成テキストエンジンによって生成されたデータセットにのみモデルをトレーニングする。
このモデルは、境界ボックスが設けられたシーン画像中のテキストインスタンスを部分的に消去したり、既存のシーンテキスト検出器で自動シーンテキスト消去を行うことができる。
論文 参考訳(メタデータ) (2021-04-23T09:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。