論文の概要: FAST: Font-Agnostic Scene Text Editing
- arxiv url: http://arxiv.org/abs/2308.02905v1
- Date: Sat, 5 Aug 2023 15:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 17:57:50.465192
- Title: FAST: Font-Agnostic Scene Text Editing
- Title(参考訳): FAST: フォント非依存のシーンテキスト編集
- Authors: Alloy Das, Prasun Roy, Saumik Bhattacharya, Subhankar Ghosh, Umapada
Pal, Michael Blumenstein
- Abstract要約: STE(Scene Text Editing)は、画像のオリジナルのテキストの背景とフォントスタイルを保存しながら、画像内の既存のテキストを変更することを目的としている。
既存のSTE手法の多くは、複雑な画像背景、様々なフォントスタイル、テキスト内の様々な単語の長さのために、編集性能が劣っている。
フォントに依存しない新しいシーンテキスト編集フレームワークであるFASTを提案し,任意のスタイルや場所のテキストを同時に生成する。
- 参考スコア(独自算出の注目度): 22.666387184216678
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scene Text Editing (STE) is a challenging research problem, and it aims to
modify existing texts in an image while preserving the background and the font
style of the original text of the image. Due to its various real-life
applications, researchers have explored several approaches toward STE in recent
years. However, most of the existing STE methods show inferior editing
performance because of (1) complex image backgrounds, (2) various font styles,
and (3) varying word lengths within the text. To address such inferior editing
performance issues, in this paper, we propose a novel font-agnostic scene text
editing framework, named FAST, for simultaneously generating text in arbitrary
styles and locations while preserving a natural and realistic appearance
through combined mask generation and style transfer. The proposed approach
differs from the existing methods as they directly modify all image pixels.
Instead, the proposed method has introduced a filtering mechanism to remove
background distractions, allowing the network to focus solely on the text
regions where editing is required. Additionally, a text-style transfer module
has been designed to mitigate the challenges posed by varying word lengths.
Extensive experiments and ablations have been conducted, and the results
demonstrate that the proposed method outperforms the existing methods both
qualitatively and quantitatively.
- Abstract(参考訳): シーンテキスト編集(ste)は困難な研究課題であり、画像の背景や元のテキストのフォントスタイルを維持しつつ、画像中の既存のテキストを変更することを目的としている。
様々な現実的な応用により、近年STEに対するいくつかのアプローチが研究されている。
しかし,既存のSTE手法の多くは,(1)複雑な画像背景,(2)多様なフォントスタイル,(3)テキスト内における単語長の変化など,編集性能が劣っている。
このような編集性能の劣る問題に対処するため,我々はFASTというフォントに依存しない新しいシーンテキスト編集フレームワークを提案し,マスク生成とスタイル転送を組み合わせた自然な外観を保ちながら,任意のスタイルや場所のテキストを同時に生成する。
提案手法は,すべての画素を直接修正するため,既存の手法とは異なる。
代わりに、提案手法では背景の邪魔をなくすフィルタリング機構を導入し、ネットワークが編集が必要なテキスト領域のみに焦点を合わせられるようにした。
さらに、テキストスタイルの転送モジュールは、単語の長さの変化による課題を軽減するように設計されている。
広範囲にわたる実験とアブレーションを行い,提案手法が質的および定量的に既存の手法を上回っていることを実証した。
関連論文リスト
- TextMastero: Mastering High-Quality Scene Text Editing in Diverse Languages and Styles [12.182588762414058]
シーンテキスト編集は、オリジナルのように新たに生成されたテキストのスタイルを維持しながら、画像上のテキストを変更することを目的としている。
最近の研究は拡散モデルを活用し、改善された結果を示しているが、依然として課題に直面している。
emphTextMastero - 潜時拡散モデル(LDM)に基づく多言語シーンテキスト編集アーキテクチャを慎重に設計した。
論文 参考訳(メタデータ) (2024-08-20T08:06:09Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - Improving Diffusion Models for Scene Text Editing with Dual Encoders [44.12999932588205]
シーンテキスト編集(Scene text editing)は、特定のテキストを画像に修正または挿入する作業である。
拡散モデルの最近の進歩は、これらの制限をテキスト条件による画像編集で克服することを約束している。
デュアルエンコーダ設計による事前学習拡散モデルを改善するためにDIFFSTEを提案する。
論文 参考訳(メタデータ) (2023-04-12T02:08:34Z) - Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image
Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。
編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。
質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文 参考訳(メタデータ) (2022-12-13T21:25:11Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Prompt-to-Prompt Image Editing with Cross Attention Control [41.26939787978142]
本稿では,テキストのみによる編集を行う直感的なプロンプト・プロンプト編集フレームワークを提案する。
様々な画像やプロンプトに対して結果を示し、高品質な合成と忠実さを編集されたプロンプトに示す。
論文 参考訳(メタデータ) (2022-08-02T17:55:41Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - RewriteNet: Realistic Scene Text Image Generation via Editing Text in
Real-world Image [17.715320405808935]
シーンテキスト編集(STE)は、テキストとスタイルの複雑な介入のために難しい作業である。
本稿ではRewriteNetと呼ばれる新しい表現学習型STEモデルを提案する。
我々の実験は、RewriteNetが他の比較よりも定量的かつ定性的な性能を達成することを示した。
論文 参考訳(メタデータ) (2021-07-23T06:32:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。