論文の概要: TextMaster: Universal Controllable Text Edit
- arxiv url: http://arxiv.org/abs/2410.09879v1
- Date: Sun, 13 Oct 2024 15:39:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 04:23:08.572101
- Title: TextMaster: Universal Controllable Text Edit
- Title(参考訳): TextMaster: Universal Controllable Text Edit
- Authors: Aoqiang Wang, Jian Wang, Zhenyu Yan, Wenxiang Shang, Ran Lin, Zhao Zhang,
- Abstract要約: 本研究では,任意のシナリオや画像領域において,テキストを高いリアリズムと適切なレイアウトで正確に編集できるTextMasterを提案する。
本手法では,トレーニングの指導として適応標準文字スペーシングを用い,テキスト位置やサイズ情報の漏洩を防止するために適応マスクブースティングを用いる。
テキスト編集領域に高解像度の標準フォント情報を注入し,知覚的損失を付与することにより,テキストのレンダリング精度と忠実度をさらに向上する。
- 参考スコア(独自算出の注目度): 5.7173370525015095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In image editing tasks, high-quality text editing capabilities can significantly reduce human and material resource costs. Current methods rely heavily on training data based on OCR text segment detection, where the text is tightly aligned with the mask area. This reliance creates a strong dependency on the mask area and lacks modules for adjusting text spacing and size in various scenarios. When the amount of text to be edited does not match the modification area or when the mask area is too large, significant issues may arise. Furthermore, no existing methods have explored controllable style transfer for text editing.To address these challenges, we propose TextMaster, a solution capable of accurately editing text with high realism and proper layout in any scenario and image area. Our approach employs adaptive standard letter spacing as guidance during training and uses adaptive mask boosting to prevent the leakage of text position and size information. We also utilize an attention mechanism to calculate the bounding box regression loss for each character, making text layout methods learnable across different scenarios. By injecting high-resolution standard font information and applying perceptual loss in the text editing area, we further enhance text rendering accuracy and fidelity. Additionally, we achieve style consistency between the modified and target text through a novel style injection method. Extensive qualitative and quantitative evaluations demonstrate that our method outperforms all existing approaches.
- Abstract(参考訳): 画像編集タスクでは、高品質なテキスト編集機能によって人や素材のコストを大幅に削減することができる。
現在の手法は,OCRテキストセグメント検出に基づくトレーニングデータに大きく依存している。
この依存は、マスク領域に強く依存し、様々なシナリオでテキスト間隔とサイズを調整するモジュールがない。
編集対象のテキスト量が修正領域と一致しない場合や、マスク領域が大きすぎる場合、重大な問題が発生する可能性がある。
さらに,テキスト編集のための制御可能なスタイル転送を探索する手法は存在せず,これらの課題に対処するために,テキストを高いリアリズムで正確に編集し,任意のシナリオや画像領域で適切なレイアウトで編集できるTextMasterを提案する。
本手法では,トレーニングの指導として適応標準文字スペーシングを用い,テキスト位置やサイズ情報の漏洩を防止するために適応マスクブースティングを用いる。
また,各文字のバウンディングボックスの回帰損失を計算し,テキストレイアウト手法を異なるシナリオで学習できるようにする。
テキスト編集領域に高解像度の標準フォント情報を注入し,知覚的損失を付与することにより,テキストのレンダリング精度と忠実度をさらに向上する。
さらに,新しいスタイルインジェクション手法により,修正テキストとターゲットテキスト間のスタイル整合性を実現する。
大規模定性的および定量的評価により,本手法が既存手法より優れていることが示された。
関連論文リスト
- TextMastero: Mastering High-Quality Scene Text Editing in Diverse Languages and Styles [12.182588762414058]
シーンテキスト編集は、オリジナルのように新たに生成されたテキストのスタイルを維持しながら、画像上のテキストを変更することを目的としている。
最近の研究は拡散モデルを活用し、改善された結果を示しているが、依然として課題に直面している。
emphTextMastero - 潜時拡散モデル(LDM)に基づく多言語シーンテキスト編集アーキテクチャを慎重に設計した。
論文 参考訳(メタデータ) (2024-08-20T08:06:09Z) - DragText: Rethinking Text Embedding in Point-based Image Editing [3.1923251959845214]
拡散モデルにおける入力画像のプログレッシブな編集において,テキスト埋め込みは一定であることを示す。
そこで我々はDragTextを提案する。DragTextはドラッグ処理と同時にテキスト埋め込みを最適化し、修正された画像埋め込みと組み合わせる。
論文 参考訳(メタデータ) (2024-07-25T07:57:55Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Class-Aware Mask-Guided Feature Refinement for Scene Text Recognition [56.968108142307976]
CAM(Class-Aware Mask-Guided Feature refinement)と呼ばれる新しい手法を提案する。
本手法では,背景およびテキストスタイルのノイズを抑制するために,標準クラス対応グリフマスクを導入している。
標準マスク特徴とテキスト特徴とのアライメントを強化することにより、モジュールはより効果的な融合を保証する。
論文 参考訳(メタデータ) (2024-02-21T09:22:45Z) - Enhancing Scene Text Detectors with Realistic Text Image Synthesis Using
Diffusion Models [63.99110667987318]
DiffTextは、前景のテキストと背景の本質的な特徴をシームレスにブレンドするパイプラインです。
テキストインスタンスが少なくなると、生成したテキストイメージはテキスト検出を支援する他の合成データを一貫して上回ります。
論文 参考訳(メタデータ) (2023-11-28T06:51:28Z) - FASTER: A Font-Agnostic Scene Text Editing and Rendering Framework [19.564048493848272]
STE(Scene Text Editing)は、画像中の既存のテキストの変更を主な目的とする、難しい研究課題である。
既存のスタイル変換ベースのアプローチでは、複雑な画像背景、多様なフォント属性、テキスト内の様々な単語長によるサブパー編集性能が示されている。
フォントに依存しない新しいシーンテキスト編集・レンダリングフレームワークであるFASTERを提案し,任意のスタイルや場所のテキストを同時に生成する。
論文 参考訳(メタデータ) (2023-08-05T15:54:06Z) - Exploring Stroke-Level Modifications for Scene Text Editing [86.33216648792964]
シーンテキスト編集(STE)は、元のテキストの背景とスタイルを保存しながら、テキストを所望のテキストに置き換えることを目的としている。
画像全体を編集するには、背景領域とテキスト領域の異なる翻訳規則を同時に学習する必要がある。
Scene Text Image at strokE Level (MOSTEL) を用いた新しいネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-05T02:10:59Z) - Make-A-Scene: Scene-Based Text-to-Image Generation with Human Priors [58.71128866226768]
近年のテキスト・ツー・イメージ生成手法は、生成した画像の忠実度とテキスト関連性を漸進的に改善している。
i)シーンの形式でテキストを補完する単純な制御機構を実現することで,これらのギャップに対処する新しいテキスト・ツー・イメージ手法を提案する。
このモデルにより,512×512ピクセルの解像度で高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-03-24T15:44:50Z) - A Text Attention Network for Spatial Deformation Robust Scene Text Image
Super-resolution [13.934846626570286]
シーンテキスト画像の超解像度は、低解像度画像におけるテキストの解像度と可読性を向上させることを目的としている。
空間的に変形したテキスト、特に回転して湾曲したテキストの高解像度画像の再構成は依然として困難である。
この問題に対処するために,CNN ベースの Text ATTention Network (TATT) を提案する。
論文 参考訳(メタデータ) (2022-03-17T15:28:29Z) - MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。
具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。
信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文 参考訳(メタデータ) (2021-04-02T14:34:41Z) - STEFANN: Scene Text Editor using Font Adaptive Neural Network [18.79337509555511]
画像中のテキストを文字レベルで修正する手法を提案する。
本稿では,(a)FANnetと(b)Colornetという2つの異なるニューラルネットワークアーキテクチャを提案する。
本手法は画像中のテキストを編集するための統一的なプラットフォームとして機能する。
論文 参考訳(メタデータ) (2019-03-04T11:56:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。