論文の概要: Global-Local Aware Scene Text Editing
- arxiv url: http://arxiv.org/abs/2512.03574v1
- Date: Wed, 03 Dec 2025 08:56:01 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:02:04.22284
- Title: Global-Local Aware Scene Text Editing
- Title(参考訳): グローバルローカライズされたシーンテキスト編集
- Authors: Fuxiang Yang, Tonghua Su, Donglin Di, Yin Chen, Xiangqian Wu, Zhongjie Wang, Lei Fan,
- Abstract要約: STE(Scene Text Editing)は、シーンイメージ内のテキストを、元のテキストスタイルと背景テクスチャを保存しながら、新しいターゲットテキストに置き換えることである。
既存の方法は、矛盾と長さの非感受性という2つの大きな課題に悩まされている。
我々はGLASTE(Global-Local Aware Scene Text Editing)というエンドツーエンドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 18.390088100986286
- License:
- Abstract: Scene Text Editing (STE) involves replacing text in a scene image with new target text while preserving both the original text style and background texture. Existing methods suffer from two major challenges: inconsistency and length-insensitivity. They often fail to maintain coherence between the edited local patch and the surrounding area, and they struggle to handle significant differences in text length before and after editing. To tackle these challenges, we propose an end-to-end framework called Global-Local Aware Scene Text Editing (GLASTE), which simultaneously incorporates high-level global contextual information along with delicate local features. Specifically, we design a global-local combination structure, joint global and local losses, and enhance text image features to ensure consistency in text style within local patches while maintaining harmony between local and global areas. Additionally, we express the text style as a vector independent of the image size, which can be transferred to target text images of various sizes. We use an affine fusion to fill target text images into the editing patch while maintaining their aspect ratio unchanged. Extensive experiments on real-world datasets validate that our GLASTE model outperforms previous methods in both quantitative metrics and qualitative results and effectively mitigates the two challenges.
- Abstract(参考訳): STE(Scene Text Editing)は、シーンイメージ内のテキストを、元のテキストスタイルと背景テクスチャの両方を保存しながら、新しいターゲットテキストに置き換えることである。
既存の方法は、矛盾と長さの非感受性という2つの大きな課題に悩まされている。
彼らはしばしば、編集されたローカルパッチと周辺領域の一貫性を維持するのに失敗し、編集前後のテキスト長の大きな違いに対処するのに苦労する。
これらの課題に対処するため,GLASTE(Global-Local Aware Scene Text Editing)と呼ばれるエンドツーエンドのフレームワークを提案する。
具体的には,地域・地域間の調和を維持しつつ,ローカルパッチ内のテキストスタイルの整合性を確保するために,グローバル・ローカルの組み合わせ構造を設計し,共同でグローバル・ローカル・ローカル・ロスを発生させる。
さらに、画像サイズに依存しないベクトルとしてテキストスタイルを表現し、様々なサイズのターゲットテキストイメージに転送する。
我々はアフィン融合を用いて、対象のテキストイメージを編集パッチに充填し、アスペクト比を一定に保ちながら、編集パッチに埋め込む。
実世界のデータセットに対する大規模な実験により、我々のGLASTEモデルは定量的な測定結果と定性的な結果の両方において従来の手法よりも優れており、この2つの課題を効果的に軽減する。
関連論文リスト
- TextMaster: A Unified Framework for Realistic Text Editing via Glyph-Style Dual-Control [5.645654441900668]
様々なシナリオや画像領域のテキストを正確に編集できるソリューションであるTextMasterを提案する。
本手法は,高解像度標準グリフ情報を組み込むことにより,テキストレンダリングの精度と忠実度を向上させる。
また,入力テキストに対して制御可能なスタイル転送を可能にする新しいスタイルインジェクション手法を提案する。
論文 参考訳(メタデータ) (2024-10-13T15:39:39Z) - TextMastero: Mastering High-Quality Scene Text Editing in Diverse Languages and Styles [12.182588762414058]
シーンテキスト編集は、オリジナルのように新たに生成されたテキストのスタイルを維持しながら、画像上のテキストを変更することを目的としている。
最近の研究は拡散モデルを活用し、改善された結果を示しているが、依然として課題に直面している。
emphTextMastero - 潜時拡散モデル(LDM)に基づく多言語シーンテキスト編集アーキテクチャを慎重に設計した。
論文 参考訳(メタデータ) (2024-08-20T08:06:09Z) - FASTER: A Font-Agnostic Scene Text Editing and Rendering Framework [19.564048493848272]
STE(Scene Text Editing)は、画像中の既存のテキストの変更を主な目的とする、難しい研究課題である。
既存のスタイル変換ベースのアプローチでは、複雑な画像背景、多様なフォント属性、テキスト内の様々な単語長によるサブパー編集性能が示されている。
フォントに依存しない新しいシーンテキスト編集・レンダリングフレームワークであるFASTERを提案し,任意のスタイルや場所のテキストを同時に生成する。
論文 参考訳(メタデータ) (2023-08-05T15:54:06Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。