論文の概要: TextWand: A Unified Framework for Scene Text Editing
- arxiv url: http://arxiv.org/abs/2606.05730v1
- Date: Thu, 04 Jun 2026 05:43:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.57906
- Title: TextWand: A Unified Framework for Scene Text Editing
- Title(参考訳): TextWand: シーンテキスト編集のための統一フレームワーク
- Authors: Shuyu Wang, Zhile Guan, Hongxiu Chen, Yule Duan, Weiqi Li, Xin Shan, Ronggang Wang, Jian Zhang,
- Abstract要約: TextWandは、シーンテキストの削除、生成、置換を単一のモデルに統合するフレームワークである。
テキストの外観と背景の整合性の両方を正確に制御する。
優れたテキストコンテンツの正確性、レイアウトとスタイルの整合性、シーンテキストの削除、生成、置換タスク全体の画質を提供する。
- 参考スコア(独自算出の注目度): 32.59846554728947
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose TextWand, a general-purpose framework that unifies scene text removal, generation, and replacement into a single model. By decomposing complex editing tasks into the atomic primitives of rendering and erasure, TextWand achieves precise control over both text appearance and background integrity. Specifically, we introduce a novel design, Overlay-Reference Positional Encoding (ORPE), to enforce pixel-level layout fidelity and exemplar-driven style control, alongside a new strategy, Region-Adaptive Suppression (RAS), to ensure clean text erasure. To address the absence of a comprehensive benchmark for general-purpose scene text editing among existing single-task datasets, we construct TextWand-Bench. Extensive experiments demonstrate that TextWand outperforms existing leading open-source and closed-source models by delivering superior text content accuracy, layout and style consistency, and overall image quality across scene text removal, generation and replacement tasks.
- Abstract(参考訳): シーンテキストの削除,生成,置換をひとつのモデルに統一する汎用フレームワークであるTextWandを提案する。
複雑な編集タスクをレンダリングと消去のアトミックなプリミティブに分解することで、TextWandはテキストの外観と背景の整合性の両方を正確に制御できる。
具体的には,新しい設計法であるOverlay-Reference Positional Encoding (ORPE)を導入し,画素レベルのレイアウトの忠実さと模範駆動型スタイル制御を実現し,新しい手法であるRegional-Adaptive Suppression (RAS) を導入してクリーンテキスト消去を実現する。
既存の単一タスクデータセット間の汎用シーンテキスト編集のための総合的なベンチマークが存在しないことを解決するため、TextWand-Benchを構築した。
大規模な実験により、TextWandは既存の主要なオープンソースおよびクローズドソースモデルよりも優れたテキストコンテンツ精度、レイアウトとスタイルの整合性、シーンテキスト削除、生成および置換タスク全体にわたる全体的な画像品質を提供することで、パフォーマンスを向上することが示された。
関連論文リスト
- TextSculptor: Training and Benchmarking Scene Text Editing [88.11688559021628]
データ構築とシーンテキスト編集評価のための総合的なフレームワークであるTextSculptorを提案する。
TextSculptorはオープンソースのテキスト編集性能を改善し、プロプライエタリなモデルとのギャップを狭める。
論文 参考訳(メタデータ) (2026-05-20T12:22:26Z) - SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild [55.619708995575785]
自然景観画像のテキストは、以下の4つの重要な基準を満たす必要がある。
生成されたテキストは、自然なシーンOCR(Optical Character Recognition)タスクのトレーニングを容易にする。
生成された画像は、テキスト検出やテキスト認識といったOCRタスクにおいて優れている。
論文 参考訳(メタデータ) (2025-01-06T12:09:08Z) - TextMaster: A Unified Framework for Realistic Text Editing via Glyph-Style Dual-Control [5.645654441900668]
様々なシナリオや画像領域のテキストを正確に編集できるソリューションであるTextMasterを提案する。
本手法は,高解像度標準グリフ情報を組み込むことにより,テキストレンダリングの精度と忠実度を向上させる。
また,入力テキストに対して制御可能なスタイル転送を可能にする新しいスタイルインジェクション手法を提案する。
論文 参考訳(メタデータ) (2024-10-13T15:39:39Z) - FASTER: A Font-Agnostic Scene Text Editing and Rendering Framework [19.564048493848272]
STE(Scene Text Editing)は、画像中の既存のテキストの変更を主な目的とする、難しい研究課題である。
既存のスタイル変換ベースのアプローチでは、複雑な画像背景、多様なフォント属性、テキスト内の様々な単語長によるサブパー編集性能が示されている。
フォントに依存しない新しいシーンテキスト編集・レンダリングフレームワークであるFASTERを提案し,任意のスタイルや場所のテキストを同時に生成する。
論文 参考訳(メタデータ) (2023-08-05T15:54:06Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Prompt-to-Prompt Image Editing with Cross Attention Control [41.26939787978142]
本稿では,テキストのみによる編集を行う直感的なプロンプト・プロンプト編集フレームワークを提案する。
様々な画像やプロンプトに対して結果を示し、高品質な合成と忠実さを編集されたプロンプトに示す。
論文 参考訳(メタデータ) (2022-08-02T17:55:41Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。