論文の概要: FAST: Font-Agnostic Scene Text Editing
- arxiv url: http://arxiv.org/abs/2308.02905v1
- Date: Sat, 5 Aug 2023 15:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 17:57:50.465192
- Title: FAST: Font-Agnostic Scene Text Editing
- Title(参考訳): FAST: フォント非依存のシーンテキスト編集
- Authors: Alloy Das, Prasun Roy, Saumik Bhattacharya, Subhankar Ghosh, Umapada
Pal, Michael Blumenstein
- Abstract要約: STE(Scene Text Editing)は、画像のオリジナルのテキストの背景とフォントスタイルを保存しながら、画像内の既存のテキストを変更することを目的としている。
既存のSTE手法の多くは、複雑な画像背景、様々なフォントスタイル、テキスト内の様々な単語の長さのために、編集性能が劣っている。
フォントに依存しない新しいシーンテキスト編集フレームワークであるFASTを提案し,任意のスタイルや場所のテキストを同時に生成する。
- 参考スコア(独自算出の注目度): 22.666387184216678
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Scene Text Editing (STE) is a challenging research problem, and it aims to
modify existing texts in an image while preserving the background and the font
style of the original text of the image. Due to its various real-life
applications, researchers have explored several approaches toward STE in recent
years. However, most of the existing STE methods show inferior editing
performance because of (1) complex image backgrounds, (2) various font styles,
and (3) varying word lengths within the text. To address such inferior editing
performance issues, in this paper, we propose a novel font-agnostic scene text
editing framework, named FAST, for simultaneously generating text in arbitrary
styles and locations while preserving a natural and realistic appearance
through combined mask generation and style transfer. The proposed approach
differs from the existing methods as they directly modify all image pixels.
Instead, the proposed method has introduced a filtering mechanism to remove
background distractions, allowing the network to focus solely on the text
regions where editing is required. Additionally, a text-style transfer module
has been designed to mitigate the challenges posed by varying word lengths.
Extensive experiments and ablations have been conducted, and the results
demonstrate that the proposed method outperforms the existing methods both
qualitatively and quantitatively.
- Abstract(参考訳): シーンテキスト編集(ste)は困難な研究課題であり、画像の背景や元のテキストのフォントスタイルを維持しつつ、画像中の既存のテキストを変更することを目的としている。
様々な現実的な応用により、近年STEに対するいくつかのアプローチが研究されている。
しかし,既存のSTE手法の多くは,(1)複雑な画像背景,(2)多様なフォントスタイル,(3)テキスト内における単語長の変化など,編集性能が劣っている。
このような編集性能の劣る問題に対処するため,我々はFASTというフォントに依存しない新しいシーンテキスト編集フレームワークを提案し,マスク生成とスタイル転送を組み合わせた自然な外観を保ちながら,任意のスタイルや場所のテキストを同時に生成する。
提案手法は,すべての画素を直接修正するため,既存の手法とは異なる。
代わりに、提案手法では背景の邪魔をなくすフィルタリング機構を導入し、ネットワークが編集が必要なテキスト領域のみに焦点を合わせられるようにした。
さらに、テキストスタイルの転送モジュールは、単語の長さの変化による課題を軽減するように設計されている。
広範囲にわたる実験とアブレーションを行い,提案手法が質的および定量的に既存の手法を上回っていることを実証した。
関連論文リスト
- Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - Text-Driven Image Editing via Learnable Regions [79.87674394912302]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述と一致した高忠実度およびリアリズムの画像操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - Towards Robust Scene Text Image Super-resolution via Explicit Location
Enhancement [59.66539728681453]
シーンテキスト画像スーパーレゾリューション(STISR)は、下流のシーンテキスト認識精度を高めながら画質を向上させることを目的としている。
既存の手法のほとんどは、前景(文字領域)と背景(非文字領域)を前方プロセスで等しく扱う。
超解像のための高レベルテキスト特異的ガイダンスを生成するために,文字領域を明示的にモデル化する新しい手法 LEMMA を提案する。
論文 参考訳(メタデータ) (2023-07-19T05:08:47Z) - Improving Diffusion Models for Scene Text Editing with Dual Encoders [44.12999932588205]
シーンテキスト編集(Scene text editing)は、特定のテキストを画像に修正または挿入する作業である。
拡散モデルの最近の進歩は、これらの制限をテキスト条件による画像編集で克服することを約束している。
デュアルエンコーダ設計による事前学習拡散モデルを改善するためにDIFFSTEを提案する。
論文 参考訳(メタデータ) (2023-04-12T02:08:34Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Direct Inversion: Optimization-Free Text-Driven Real Image Editing with
Diffusion Models [0.0]
本稿では,テキストプロンプトを介し,複雑な非厳密な編集を1つの実画像に適用する最適化フリーでゼロな微調整フレームワークを提案する。
高品質,多様性,セマンティック・コヒーレント,忠実な実画像編集において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-15T01:07:38Z) - Prompt-to-Prompt Image Editing with Cross Attention Control [41.26939787978142]
本稿では,テキストのみによる編集を行う直感的なプロンプト・プロンプト編集フレームワークを提案する。
様々な画像やプロンプトに対して結果を示し、高品質な合成と忠実さを編集されたプロンプトに示す。
論文 参考訳(メタデータ) (2022-08-02T17:55:41Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - STEFANN: Scene Text Editor using Font Adaptive Neural Network [18.79337509555511]
画像中のテキストを文字レベルで修正する手法を提案する。
本稿では,(a)FANnetと(b)Colornetという2つの異なるニューラルネットワークアーキテクチャを提案する。
本手法は画像中のテキストを編集するための統一的なプラットフォームとして機能する。
論文 参考訳(メタデータ) (2019-03-04T11:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。