Fugu-MT 論文翻訳(概要): FASTER: A Font-Agnostic Scene Text Editing and Rendering Framework

論文の概要: FASTER: A Font-Agnostic Scene Text Editing and Rendering Framework

arxiv url: http://arxiv.org/abs/2308.02905v3
Date: Tue, 05 Nov 2024 10:51:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:29.200713
Title: FASTER: A Font-Agnostic Scene Text Editing and Rendering Framework
Title（参考訳）: FASTER: フォント非依存のシーンテキスト編集とレンダリングフレームワーク
Authors: Alloy Das, Sanket Biswas, Prasun Roy, Subhankar Ghosh, Umapada Pal, Michael Blumenstein, Josep Lladós, Saumik Bhattacharya,
Abstract要約: STE(Scene Text Editing)は、画像中の既存のテキストの変更を主な目的とする、難しい研究課題である。既存のスタイル変換ベースのアプローチでは、複雑な画像背景、多様なフォント属性、テキスト内の様々な単語長によるサブパー編集性能が示されている。フォントに依存しない新しいシーンテキスト編集・レンダリングフレームワークであるFASTERを提案し,任意のスタイルや場所のテキストを同時に生成する。
参考スコア（独自算出の注目度）: 19.564048493848272
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Scene Text Editing (STE) is a challenging research problem, that primarily aims towards modifying existing texts in an image while preserving the background and the font style of the original text. Despite its utility in numerous real-world applications, existing style-transfer-based approaches have shown sub-par editing performance due to (1) complex image backgrounds, (2) diverse font attributes, and (3) varying word lengths within the text. To address such limitations, in this paper, we propose a novel font-agnostic scene text editing and rendering framework, named FASTER, for simultaneously generating text in arbitrary styles and locations while preserving a natural and realistic appearance and structure. A combined fusion of target mask generation and style transfer units, with a cascaded self-attention mechanism has been proposed to focus on multi-level text region edits to handle varying word lengths. Extensive evaluation on a real-world database with further subjective human evaluation study indicates the superiority of FASTER in both scene text editing and rendering tasks, in terms of model performance and efficiency. Our code will be released upon acceptance.
Abstract（参考訳）: STE(Scene Text Editing)は、画像中の既存のテキストの変更と、元のテキストの背景とフォントスタイルの保存を主な目的とする、困難な研究課題である。多くの実世界のアプリケーションで有効であるが,(1)複雑な画像背景,(2)多様なフォント属性,(3)テキスト内の単語長の変化などにより,既存のスタイル変換ベースのアプローチではサブパー編集性能が向上している。このような制約に対処するため,本研究では,自然かつ現実的な外観と構造を維持しつつ,任意のスタイルや場所のテキストを同時に生成する,フォントに依存しない新しいシーンテキスト編集・レンダリングフレームワークであるFASTERを提案する。ターゲットマスク生成とスタイル伝達ユニットの融合と,多レベルテキスト領域の編集に焦点をあてる自己認識機構が提案されている。より主観的な人的評価研究を施した実世界のデータベースにおける広範囲な評価は、モデルの性能と効率の観点から、シーンテキストの編集とレンダリングの両方におけるFASTERの優位性を示している。私たちのコードは受け入れ次第解放されます。

関連論文リスト

Global-Local Aware Scene Text Editing [18.390088100986286]
STE(Scene Text Editing)は、シーンイメージ内のテキストを、元のテキストスタイルと背景テクスチャを保存しながら、新しいターゲットテキストに置き換えることである。既存の方法は、矛盾と長さの非感受性という2つの大きな課題に悩まされている。我々はGLASTE(Global-Local Aware Scene Text Editing)というエンドツーエンドフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-03T08:56:01Z)
DesignDiffusion: High-Quality Text-to-Design Image Generation with Diffusion Models [115.62816053600085]
デザインイメージをテキスト記述から合成するフレームワークであるDesignDiffusionを提案する。提案するフレームワークは,ユーザプロンプトから直接テキストおよびビジュアルデザイン要素を合成する。視覚テキストから派生した特徴的な文字埋め込みを利用して入力プロンプトを強化する。
論文参考訳（メタデータ） (2025-03-03T15:22:57Z)
SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild [55.619708995575785]
自然景観画像のテキストは、以下の4つの重要な基準を満たす必要がある。生成されたテキストは、自然なシーンOCR(Optical Character Recognition)タスクのトレーニングを容易にする。生成された画像は、テキスト検出やテキスト認識といったOCRタスクにおいて優れている。
論文参考訳（メタデータ） (2025-01-06T12:09:08Z)
TextMaster: A Unified Framework for Realistic Text Editing via Glyph-Style Dual-Control [5.645654441900668]
様々なシナリオや画像領域のテキストを正確に編集できるソリューションであるTextMasterを提案する。本手法は,高解像度標準グリフ情報を組み込むことにより,テキストレンダリングの精度と忠実度を向上させる。また,入力テキストに対して制御可能なスタイル転送を可能にする新しいスタイルインジェクション手法を提案する。
論文参考訳（メタデータ） (2024-10-13T15:39:39Z)
TextMastero: Mastering High-Quality Scene Text Editing in Diverse Languages and Styles [12.182588762414058]
シーンテキスト編集は、オリジナルのように新たに生成されたテキストのスタイルを維持しながら、画像上のテキストを変更することを目的としている。最近の研究は拡散モデルを活用し、改善された結果を示しているが、依然として課題に直面している。 emphTextMastero - 潜時拡散モデル(LDM)に基づく多言語シーンテキスト編集アーキテクチャを慎重に設計した。
論文参考訳（メタデータ） (2024-08-20T08:06:09Z)
Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文参考訳（メタデータ） (2023-11-28T06:51:28Z)
Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文参考訳（メタデータ） (2023-11-28T02:27:31Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Improving Diffusion Models for Scene Text Editing with Dual Encoders [44.12999932588205]
シーンテキスト編集(Scene text editing)は、特定のテキストを画像に修正または挿入する作業である。拡散モデルの最近の進歩は、これらの制限をテキスト条件による画像編集で克服することを約束している。デュアルエンコーダ設計による事前学習拡散モデルを改善するためにDIFFSTEを提案する。
論文参考訳（メタデータ） (2023-04-12T02:08:34Z)
Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image Inpainting [53.708523312636096]
本稿では,テキスト誘導画像のインペイントを微調整し,カスケード拡散モデルであるImagen Editorを提案する。編集はテキストプロンプトに忠実で、オブジェクト検出器を使用してトレーニング中に塗装マスクを提案する。質的,定量的な評価を改善するために,テキスト誘導画像の塗り絵の体系的ベンチマークであるEditBenchを導入する。
論文参考訳（メタデータ） (2022-12-13T21:25:11Z)
Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。 Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文参考訳（メタデータ） (2022-12-05T02:10:59Z)
Prompt-to-Prompt Image Editing with Cross Attention Control [41.26939787978142]
本稿では,テキストのみによる編集を行う直感的なプロンプト・プロンプト編集フレームワークを提案する。様々な画像やプロンプトに対して結果を示し、高品質な合成と忠実さを編集されたプロンプトに示す。
論文参考訳（メタデータ） (2022-08-02T17:55:41Z)
Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。 i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文参考訳（メタデータ） (2022-03-24T15:44:50Z)
RewriteNet: Realistic Scene Text Image Generation via Editing Text in Real-world Image [17.715320405808935]
シーンテキスト編集(STE)は、テキストとスタイルの複雑な介入のために難しい作業である。本稿ではRewriteNetと呼ばれる新しい表現学習型STEモデルを提案する。我々の実験は、RewriteNetが他の比較よりも定量的かつ定性的な性能を達成することを示した。
論文参考訳（メタデータ） (2021-07-23T06:32:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。