Fugu-MT 論文翻訳(概要): FAST: Font-Agnostic Scene Text Editing

論文の概要: FAST: Font-Agnostic Scene Text Editing

arxiv url: http://arxiv.org/abs/2308.02905v1
Date: Sat, 5 Aug 2023 15:54:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-08 17:57:50.465192
Title: FAST: Font-Agnostic Scene Text Editing
Title（参考訳）: FAST: フォント非依存のシーンテキスト編集
Authors: Alloy Das, Prasun Roy, Saumik Bhattacharya, Subhankar Ghosh, Umapada Pal, Michael Blumenstein
Abstract要約: STE(Scene Text Editing)は、画像のオリジナルのテキストの背景とフォントスタイルを保存しながら、画像内の既存のテキストを変更することを目的としている。既存のSTE手法の多くは、複雑な画像背景、様々なフォントスタイル、テキスト内の様々な単語の長さのために、編集性能が劣っている。フォントに依存しない新しいシーンテキスト編集フレームワークであるFASTを提案し,任意のスタイルや場所のテキストを同時に生成する。
参考スコア（独自算出の注目度）: 22.666387184216678
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Scene Text Editing (STE) is a challenging research problem, and it aims to modify existing texts in an image while preserving the background and the font style of the original text of the image. Due to its various real-life applications, researchers have explored several approaches toward STE in recent years. However, most of the existing STE methods show inferior editing performance because of (1) complex image backgrounds, (2) various font styles, and (3) varying word lengths within the text. To address such inferior editing performance issues, in this paper, we propose a novel font-agnostic scene text editing framework, named FAST, for simultaneously generating text in arbitrary styles and locations while preserving a natural and realistic appearance through combined mask generation and style transfer. The proposed approach differs from the existing methods as they directly modify all image pixels. Instead, the proposed method has introduced a filtering mechanism to remove background distractions, allowing the network to focus solely on the text regions where editing is required. Additionally, a text-style transfer module has been designed to mitigate the challenges posed by varying word lengths. Extensive experiments and ablations have been conducted, and the results demonstrate that the proposed method outperforms the existing methods both qualitatively and quantitatively.
Abstract（参考訳）: シーンテキスト編集(ste)は困難な研究課題であり、画像の背景や元のテキストのフォントスタイルを維持しつつ、画像中の既存のテキストを変更することを目的としている。様々な現実的な応用により、近年STEに対するいくつかのアプローチが研究されている。しかし,既存のSTE手法の多くは,(1)複雑な画像背景,(2)多様なフォントスタイル,(3)テキスト内における単語長の変化など,編集性能が劣っている。このような編集性能の劣る問題に対処するため,我々はFASTというフォントに依存しない新しいシーンテキスト編集フレームワークを提案し,マスク生成とスタイル転送を組み合わせた自然な外観を保ちながら,任意のスタイルや場所のテキストを同時に生成する。提案手法は,すべての画素を直接修正するため,既存の手法とは異なる。代わりに、提案手法では背景の邪魔をなくすフィルタリング機構を導入し、ネットワークが編集が必要なテキスト領域のみに焦点を合わせられるようにした。さらに、テキストスタイルの転送モジュールは、単語の長さの変化による課題を軽減するように設計されている。広範囲にわたる実験とアブレーションを行い,提案手法が質的および定量的に既存の手法を上回っていることを実証した。

関連論文リスト

DesignDiffusion: High-Quality Text-to-Design Image Generation with Diffusion Models [115.62816053600085]
デザインイメージをテキスト記述から合成するフレームワークであるDesignDiffusionを提案する。提案するフレームワークは,ユーザプロンプトから直接テキストおよびビジュアルデザイン要素を合成する。視覚テキストから派生した特徴的な文字埋め込みを利用して入力プロンプトを強化する。
論文参考訳（メタデータ） (2025-03-03T15:22:57Z)
SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild [55.619708995575785]
自然景観画像のテキストは、以下の4つの重要な基準を満たす必要がある。生成されたテキストは、自然なシーンOCR(Optical Character Recognition)タスクのトレーニングを容易にする。生成された画像は、テキスト検出やテキスト認識といったOCRタスクにおいて優れている。
論文参考訳（メタデータ） (2025-01-06T12:09:08Z)
TextMaster: A Unified Framework for Realistic Text Editing via Glyph-Style Dual-Control [5.645654441900668]
様々なシナリオや画像領域のテキストを正確に編集できるソリューションであるTextMasterを提案する。本手法は,高解像度標準グリフ情報を組み込むことにより,テキストレンダリングの精度と忠実度を向上させる。また,入力テキストに対して制御可能なスタイル転送を可能にする新しいスタイルインジェクション手法を提案する。
論文参考訳（メタデータ） (2024-10-13T15:39:39Z)
TextMastero: Mastering High-Quality Scene Text Editing in Diverse Languages and Styles [12.182588762414058]
シーンテキスト編集は、オリジナルのように新たに生成されたテキストのスタイルを維持しながら、画像上のテキストを変更することを目的としている。最近の研究は拡散モデルを活用し、改善された結果を示しているが、依然として課題に直面している。 emphTextMastero - 潜時拡散モデル(LDM)に基づく多言語シーンテキスト編集アーキテクチャを慎重に設計した。
論文参考訳（メタデータ） (2024-08-20T08:06:09Z)
Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文参考訳（メタデータ） (2023-11-28T06:51:28Z)
Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文参考訳（メタデータ） (2023-11-28T02:27:31Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Improving Diffusion Models for Scene Text Editing with Dual Encoders [44.12999932588205]
シーンテキスト編集(Scene text editing)は、特定のテキストを画像に修正または挿入する作業である。拡散モデルの最近の進歩は、これらの制限をテキスト条件による画像編集で克服することを約束している。デュアルエンコーダ設計による事前学習拡散モデルを改善するためにDIFFSTEを提案する。
論文参考訳（メタデータ） (2023-04-12T02:08:34Z)
Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文参考訳（メタデータ） (2022-12-13T21:25:11Z)
Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。 Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文参考訳（メタデータ） (2022-12-05T02:10:59Z)
Prompt-to-Prompt Image Editing with Cross Attention Control [41.26939787978142]
本稿では,テキストのみによる編集を行う直感的なプロンプト・プロンプト編集フレームワークを提案する。様々な画像やプロンプトに対して結果を示し、高品質な合成と忠実さを編集されたプロンプトに示す。
論文参考訳（メタデータ） (2022-08-02T17:55:41Z)
Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。 i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文参考訳（メタデータ） (2022-03-24T15:44:50Z)
RewriteNet: Realistic Scene Text Image Generation via Editing Text in Real-world Image [17.715320405808935]
シーンテキスト編集(STE)は、テキストとスタイルの複雑な介入のために難しい作業である。本稿ではRewriteNetと呼ばれる新しい表現学習型STEモデルを提案する。我々の実験は、RewriteNetが他の比較よりも定量的かつ定性的な性能を達成することを示した。
論文参考訳（メタデータ） (2021-07-23T06:32:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。