論文の概要: Recognition-Synergistic Scene Text Editing
- arxiv url: http://arxiv.org/abs/2503.08387v2
- Date: Sat, 15 Mar 2025 10:39:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:36:35.661996
- Title: Recognition-Synergistic Scene Text Editing
- Title(参考訳): 認識-シネルジスティックなシーンテキスト編集
- Authors: Zhengyao Fang, Pengyuan Lyu, Jingjing Wu, Chengquan Zhang, Jun Yu, Guangming Lu, Wenjie Pei,
- Abstract要約: シーンテキスト編集は、スタイルの一貫性を維持しながらシーンイメージ内のテキスト内容を変更することを目的としている。
従来の方法では、ソースイメージからスタイルとコンテンツを明示的に切り離し、ターゲットコンテンツとスタイルを融合することでこれを実現している。
本稿では,テキスト認識の本質的な相乗効果を完全に活用した新しいアプローチである認識-Synergistic Scene Text Editing (RS-STE)を紹介する。
- 参考スコア(独自算出の注目度): 41.91470824144351
- License:
- Abstract: Scene text editing aims to modify text content within scene images while maintaining style consistency. Traditional methods achieve this by explicitly disentangling style and content from the source image and then fusing the style with the target content, while ensuring content consistency using a pre-trained recognition model. Despite notable progress, these methods suffer from complex pipelines, leading to suboptimal performance in complex scenarios. In this work, we introduce Recognition-Synergistic Scene Text Editing (RS-STE), a novel approach that fully exploits the intrinsic synergy of text recognition for editing. Our model seamlessly integrates text recognition with text editing within a unified framework, and leverages the recognition model's ability to implicitly disentangle style and content while ensuring content consistency. Specifically, our approach employs a multi-modal parallel decoder based on transformer architecture, which predicts both text content and stylized images in parallel. Additionally, our cyclic self-supervised fine-tuning strategy enables effective training on unpaired real-world data without ground truth, enhancing style and content consistency through a twice-cyclic generation process. Built on a relatively simple architecture, RS-STE achieves state-of-the-art performance on both synthetic and real-world benchmarks, and further demonstrates the effectiveness of leveraging the generated hard cases to boost the performance of downstream recognition tasks. Code is available at https://github.com/ZhengyaoFang/RS-STE.
- Abstract(参考訳): シーンテキスト編集は、スタイルの一貫性を維持しながらシーンイメージ内のテキスト内容を変更することを目的としている。
従来の方法では、ソースイメージからスタイルとコンテンツを明示的に切り離し、ターゲットコンテンツとスタイルを融合させ、事前訓練された認識モデルを用いてコンテンツ一貫性を確保する。
顕著な進歩にもかかわらず、これらの手法は複雑なパイプラインに悩まされ、複雑なシナリオで最適以下のパフォーマンスをもたらす。
本研究では,テキスト認識の本質的な相乗効果をフル活用した新しいアプローチである認識-Synergistic Scene Text Editing (RS-STE)を紹介する。
本モデルでは,テキスト認識とテキスト編集を統合されたフレームワークでシームレスに統合し,コンテンツ一貫性を確保しつつ,暗黙的にスタイルやコンテンツを歪める認識モデルの能力を活用する。
具体的には、トランスアーキテクチャに基づくマルチモーダル並列デコーダを用いて、テキストコンテンツとスタイリング画像の両方を並列に予測する。
さらに, 循環型自己監督型微調整戦略により, 2サイクル生成プロセスを通じて, 実世界の実世界のデータに対して, 真実を示さずに効果的なトレーニングを行え, スタイルとコンテンツ一貫性を向上することができる。
RS-STEは比較的単純なアーキテクチャで構築され、合成および実世界のベンチマークの両方で最先端のパフォーマンスを実現し、生成されたハードケースを活用して下流認識タスクの性能を高める効果を実証する。
コードはhttps://github.com/ZhengyaoFang/RS-STEで入手できる。
関連論文リスト
- TextCtrl: Diffusion-based Scene Text Editing with Prior Guidance Control [5.3798706094384725]
テキストを事前の誘導制御で編集する拡散法であるTextCtrlを提案する。
i) きめ細かなテキストスタイルの不整合と頑健なテキスト構造表現を構築することにより、TextCtrlはモデル設計とネットワークトレーニングにスタイル構造ガイダンスを明示的に組み込んで、テキストスタイルの一貫性とレンダリング精度を大幅に向上させる。
実世界のSTE評価ベンチマークの空白を埋めるために、フェアな比較のためにScenePairと呼ばれる最初の実世界の画像ペアデータセットを作成します。
論文 参考訳(メタデータ) (2024-10-14T03:50:39Z) - Choose What You Need: Disentangled Representation Learning for Scene Text Recognition, Removal and Editing [47.421888361871254]
シーンテキスト画像は、スタイル情報(フォント、背景)だけでなく、コンテンツ情報(文字、テクスチャ)も含む。
従来の表現学習手法では、全てのタスクに密結合した特徴を使い、結果として準最適性能が得られる。
本稿では,適応性向上のための2種類の特徴を両立させることを目的としたDAR(Disentangled Representation Learning framework)を提案する。
論文 参考訳(メタデータ) (2024-05-07T15:00:11Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - WordStylist: Styled Verbatim Handwritten Text Generation with Latent
Diffusion Models [8.334487584550185]
単語レベルに基づくテキスト・テキスト・コンテンツ・イメージ生成のための遅延拡散に基づく手法を提案する。
提案手法は,異なる書き手スタイルからリアルな単語画像のサンプルを生成することができる。
提案モデルでは,美的満足度の高いサンプルを作成し,テキスト認識性能の向上に寄与し,類似の文字検索スコアを実データとして得られることを示す。
論文 参考訳(メタデータ) (2023-03-29T10:19:26Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - Content and Style Aware Generation of Text-line Images for Handwriting
Recognition [4.301658883577544]
視覚的外観とテキストコンテンツの両方を条件とした手書きテキストライン画像の生成法を提案する。
本手法では,多彩な手書きスタイルの長いテキストラインサンプルを作成できる。
論文 参考訳(メタデータ) (2022-04-12T05:52:03Z) - RewriteNet: Realistic Scene Text Image Generation via Editing Text in
Real-world Image [17.715320405808935]
シーンテキスト編集(STE)は、テキストとスタイルの複雑な介入のために難しい作業である。
本稿ではRewriteNetと呼ばれる新しい表現学習型STEモデルを提案する。
我々の実験は、RewriteNetが他の比較よりも定量的かつ定性的な性能を達成することを示した。
論文 参考訳(メタデータ) (2021-07-23T06:32:58Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。