Fugu-MT 論文翻訳(概要): TextMaster: Universal Controllable Text Edit

論文の概要: TextMaster: Universal Controllable Text Edit

arxiv url: http://arxiv.org/abs/2410.09879v1
Date: Sun, 13 Oct 2024 15:39:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 04:23:08.572101
Title: TextMaster: Universal Controllable Text Edit
Title（参考訳）: TextMaster: Universal Controllable Text Edit
Authors: Aoqiang Wang, Jian Wang, Zhenyu Yan, Wenxiang Shang, Ran Lin, Zhao Zhang,
Abstract要約: 本研究では,任意のシナリオや画像領域において,テキストを高いリアリズムと適切なレイアウトで正確に編集できるTextMasterを提案する。本手法では,トレーニングの指導として適応標準文字スペーシングを用い,テキスト位置やサイズ情報の漏洩を防止するために適応マスクブースティングを用いる。テキスト編集領域に高解像度の標準フォント情報を注入し,知覚的損失を付与することにより,テキストのレンダリング精度と忠実度をさらに向上する。
参考スコア（独自算出の注目度）: 5.7173370525015095
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In image editing tasks, high-quality text editing capabilities can significantly reduce human and material resource costs. Current methods rely heavily on training data based on OCR text segment detection, where the text is tightly aligned with the mask area. This reliance creates a strong dependency on the mask area and lacks modules for adjusting text spacing and size in various scenarios. When the amount of text to be edited does not match the modification area or when the mask area is too large, significant issues may arise. Furthermore, no existing methods have explored controllable style transfer for text editing.To address these challenges, we propose TextMaster, a solution capable of accurately editing text with high realism and proper layout in any scenario and image area. Our approach employs adaptive standard letter spacing as guidance during training and uses adaptive mask boosting to prevent the leakage of text position and size information. We also utilize an attention mechanism to calculate the bounding box regression loss for each character, making text layout methods learnable across different scenarios. By injecting high-resolution standard font information and applying perceptual loss in the text editing area, we further enhance text rendering accuracy and fidelity. Additionally, we achieve style consistency between the modified and target text through a novel style injection method. Extensive qualitative and quantitative evaluations demonstrate that our method outperforms all existing approaches.
Abstract（参考訳）: 画像編集タスクでは、高品質なテキスト編集機能によって人や素材のコストを大幅に削減することができる。現在の手法は,OCRテキストセグメント検出に基づくトレーニングデータに大きく依存している。この依存は、マスク領域に強く依存し、様々なシナリオでテキスト間隔とサイズを調整するモジュールがない。編集対象のテキスト量が修正領域と一致しない場合や、マスク領域が大きすぎる場合、重大な問題が発生する可能性がある。さらに,テキスト編集のための制御可能なスタイル転送を探索する手法は存在せず,これらの課題に対処するために,テキストを高いリアリズムで正確に編集し,任意のシナリオや画像領域で適切なレイアウトで編集できるTextMasterを提案する。本手法では,トレーニングの指導として適応標準文字スペーシングを用い,テキスト位置やサイズ情報の漏洩を防止するために適応マスクブースティングを用いる。また,各文字のバウンディングボックスの回帰損失を計算し,テキストレイアウト手法を異なるシナリオで学習できるようにする。テキスト編集領域に高解像度の標準フォント情報を注入し,知覚的損失を付与することにより,テキストのレンダリング精度と忠実度をさらに向上する。さらに,新しいスタイルインジェクション手法により,修正テキストとターゲットテキスト間のスタイル整合性を実現する。大規模定性的および定量的評価により,本手法が既存手法より優れていることが示された。

関連論文リスト

WordCon: Word-level Typography Control in Scene Text Rendering [12.00205643907721]
単語レベルの制御されたシーンテキストデータセットを構築し,テキスト画像アライメントフレームワークを導入する。また,ハイブリッドパラメータ効率細調整(PEFT)手法であるWordConを提案する。データセットとソースコードは学術的に利用できる。
論文参考訳（メタデータ） (2025-06-26T14:00:38Z)
DCEdit: Dual-Level Controlled Image Editing via Precisely Localized Semantics [71.78350994830885]
拡散モデルを用いたテキスト誘導画像編集における新しい手法を提案する。本手法は,視覚的・テキスト的自己注意を用いて横断的意識マップを向上し,編集性能を向上させるための地域的手がかりとして機能する。提案手法を他のDiTベースのアプローチと完全に比較するため,高解像度画像,長い記述テキスト,実世界の画像,新しいテキスト編集タスクを特徴とするRW-800ベンチマークを構築した。
論文参考訳（メタデータ） (2025-03-21T02:14:03Z)
SceneVTG++: Controllable Multilingual Visual Text Generation in the Wild [55.619708995575785]
自然景観画像のテキストは、以下の4つの重要な基準を満たす必要がある。生成されたテキストは、自然なシーンOCR(Optical Character Recognition)タスクのトレーニングを容易にする。生成された画像は、テキスト検出やテキスト認識といったOCRタスクにおいて優れている。
論文参考訳（メタデータ） (2025-01-06T12:09:08Z)
TextCtrl: Diffusion-based Scene Text Editing with Prior Guidance Control [5.3798706094384725]
テキストを事前の誘導制御で編集する拡散法であるTextCtrlを提案する。 i) きめ細かなテキストスタイルの不整合と頑健なテキスト構造表現を構築することにより、TextCtrlはモデル設計とネットワークトレーニングにスタイル構造ガイダンスを明示的に組み込んで、テキストスタイルの一貫性とレンダリング精度を大幅に向上させる。実世界のSTE評価ベンチマークの空白を埋めるために、フェアな比較のためにScenePairと呼ばれる最初の実世界の画像ペアデータセットを作成します。
論文参考訳（メタデータ） (2024-10-14T03:50:39Z)
TextMastero: Mastering High-Quality Scene Text Editing in Diverse Languages and Styles [12.182588762414058]
シーンテキスト編集は、オリジナルのように新たに生成されたテキストのスタイルを維持しながら、画像上のテキストを変更することを目的としている。最近の研究は拡散モデルを活用し、改善された結果を示しているが、依然として課題に直面している。 emphTextMastero - 潜時拡散モデル(LDM)に基づく多言語シーンテキスト編集アーキテクチャを慎重に設計した。
論文参考訳（メタデータ） (2024-08-20T08:06:09Z)
DragText: Rethinking Text Embedding in Point-based Image Editing [3.1923251959845214]
拡散モデルにおける入力画像のプログレッシブな編集において,テキスト埋め込みは一定であることを示す。そこで我々はDragTextを提案する。DragTextはドラッグ処理と同時にテキスト埋め込みを最適化し、修正された画像埋め込みと組み合わせる。
論文参考訳（メタデータ） (2024-07-25T07:57:55Z)
ODM: A Text-Image Further Alignment Pre-training Approach for Scene Text Detection and Spotting [8.397246652127793]
我々は OCR-Text Destylization Modeling (ODM) と呼ばれる新しい事前学習手法を提案する。 ODMは、画像中の様々なスタイルのテキストを、テキストプロンプトに基づいて一様に転送する。本手法は,シーンテキストの検出やスポッティング作業において,現在の事前学習方法よりも性能が大幅に向上し,性能が向上する。
論文参考訳（メタデータ） (2024-03-01T06:13:53Z)
Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文参考訳（メタデータ） (2024-02-27T01:57:09Z)
Class-Aware Mask-Guided Feature Refinement for Scene Text Recognition [56.968108142307976]
CAM(Class-Aware Mask-Guided Feature refinement)と呼ばれる新しい手法を提案する。本手法では,背景およびテキストスタイルのノイズを抑制するために,標準クラス対応グリフマスクを導入している。標準マスク特徴とテキスト特徴とのアライメントを強化することにより、モジュールはより効果的な融合を保証する。
論文参考訳（メタデータ） (2024-02-21T09:22:45Z)
Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文参考訳（メタデータ） (2023-11-28T06:51:28Z)
Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文参考訳（メタデータ） (2023-11-28T02:27:31Z)
FASTER: A Font-Agnostic Scene Text Editing and Rendering Framework [19.564048493848272]
STE(Scene Text Editing)は、画像中の既存のテキストの変更を主な目的とする、難しい研究課題である。既存のスタイル変換ベースのアプローチでは、複雑な画像背景、多様なフォント属性、テキスト内の様々な単語長によるサブパー編集性能が示されている。フォントに依存しない新しいシーンテキスト編集・レンダリングフレームワークであるFASTERを提案し,任意のスタイルや場所のテキストを同時に生成する。
論文参考訳（メタデータ） (2023-08-05T15:54:06Z)
Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。 Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文参考訳（メタデータ） (2022-12-05T02:10:59Z)
Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。 i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文参考訳（メタデータ） (2022-03-24T15:44:50Z)
A Text Attention Network for Spatial Deformation Robust Scene Text Image Super-resolution [13.934846626570286]
シーンテキスト画像の超解像度は、低解像度画像におけるテキストの解像度と可読性を向上させることを目的としている。空間的に変形したテキスト、特に回転して湾曲したテキストの高解像度画像の再構成は依然として困難である。この問題に対処するために,CNN ベースの Text ATTention Network (TATT) を提案する。
論文参考訳（メタデータ） (2022-03-17T15:28:29Z)
MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文参考訳（メタデータ） (2021-04-02T14:34:41Z)
STEFANN: Scene Text Editor using Font Adaptive Neural Network [18.79337509555511]
画像中のテキストを文字レベルで修正する手法を提案する。本稿では,(a)FANnetと(b)Colornetという2つの異なるニューラルネットワークアーキテクチャを提案する。本手法は画像中のテキストを編集するための統一的なプラットフォームとして機能する。
論文参考訳（メタデータ） (2019-03-04T11:56:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。