論文の概要: SceneTextStylizer: A Training-Free Scene Text Style Transfer Framework with Diffusion Model
- arxiv url: http://arxiv.org/abs/2510.10910v1
- Date: Mon, 13 Oct 2025 02:11:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.149782
- Title: SceneTextStylizer: A Training-Free Scene Text Style Transfer Framework with Diffusion Model
- Title(参考訳): SceneTextStylizer:拡散モデルを用いたトレーニング不要のScene Textスタイル変換フレームワーク
- Authors: Honghui Yuan, Keiji Yanai,
- Abstract要約: SceneTextStylizerは、シーンイメージ中のテキストを柔軟かつ高忠実に転送するためのトレーニング不要な拡散ベースのフレームワークである。
本手法は,テキストの読みやすさとスタイル整合性の両方を保ちながら,テキスト領域に特化して,プロンプト誘導型スタイル変換を実現する。
- 参考スコア(独自算出の注目度): 4.785724079054428
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of diffusion models, style transfer has made remarkable progress. However, flexible and localized style editing for scene text remains an unsolved challenge. Although existing scene text editing methods have achieved text region editing, they are typically limited to content replacement and simple styles, which lack the ability of free-style transfer. In this paper, we introduce SceneTextStylizer, a novel training-free diffusion-based framework for flexible and high-fidelity style transfer of text in scene images. Unlike prior approaches that either perform global style transfer or focus solely on textual content modification, our method enables prompt-guided style transformation specifically for text regions, while preserving both text readability and stylistic consistency. To achieve this, we design a feature injection module that leverages diffusion model inversion and self-attention to transfer style features effectively. Additionally, a region control mechanism is introduced by applying a distance-based changing mask at each denoising step, enabling precise spatial control. To further enhance visual quality, we incorporate a style enhancement module based on the Fourier transform to reinforce stylistic richness. Extensive experiments demonstrate that our method achieves superior performance in scene text style transformation, outperforming existing state-of-the-art methods in both visual fidelity and text preservation.
- Abstract(参考訳): 拡散モデルの急速な発展により、スタイル伝達は顕著な進歩を遂げた。
しかし、シーンテキストのフレキシブルでローカライズされたスタイル編集は未解決の課題である。
既存のシーンテキスト編集手法はテキスト領域の編集を達成しているが、通常はコンテンツ置換や単純なスタイルに限られており、フリースタイルの転送能力に欠ける。
本稿では,SceneTextStylizerを紹介する。SceneTextStylizerは,画像中のテキストを柔軟かつ高忠実に転送するための,新しいトレーニングフリー拡散ベースフレームワークである。
グローバルなスタイル転送やテキストコンテンツ修正のみにフォーカスする従来の手法とは異なり,本手法ではテキストの可読性とスタイル整合性を両立しつつ,テキスト領域に特化してプロンプト誘導型スタイル変換を実現する。
これを実現するために,拡散モデルインバージョンと自己アテンションを有効活用する機能インジェクションモジュールを設計する。
さらに、各聴覚ステップに距離ベース変更マスクを適用し、正確な空間制御を実現することにより、領域制御機構を導入する。
視覚的品質をさらに高めるために、フーリエ変換に基づくスタイル拡張モジュールを組み込んで、スタイリスティックな豊かさを強化する。
広汎な実験により,本手法はシーンテキストスタイルの変換において,視覚的忠実度とテキスト保存性の両方において,既存の最先端手法よりも優れた性能を発揮することが示された。
関連論文リスト
- StyleStudio: Text-Driven Style Transfer with Selective Control of Style Elements [10.752464085587267]
テキスト駆動型スタイル転送は、参照イメージのスタイルとテキストプロンプトによって記述されたコンテンツとをマージすることを目的としている。
テキスト・ツー・イメージ・モデルの最近の進歩はニュアンス・スタイルの変換を改善しているが、大きな課題は残る。
これらの問題に対処するための3つの補完戦略を提案する。
論文 参考訳(メタデータ) (2024-12-11T16:13:23Z) - TextMaster: A Unified Framework for Realistic Text Editing via Glyph-Style Dual-Control [5.645654441900668]
様々なシナリオや画像領域のテキストを正確に編集できるソリューションであるTextMasterを提案する。
本手法は,高解像度標準グリフ情報を組み込むことにより,テキストレンダリングの精度と忠実度を向上させる。
また,入力テキストに対して制御可能なスタイル転送を可能にする新しいスタイルインジェクション手法を提案する。
論文 参考訳(メタデータ) (2024-10-13T15:39:39Z) - StyleMamba : State Space Model for Efficient Text-driven Image Style Transfer [9.010012117838725]
StyleMambaは、テキストプロンプトを対応する視覚スタイルに変換する効率的な画像スタイル転送フレームワークである。
既存のテキストガイドによるスタイリングには、数百のトレーニングイテレーションが必要で、多くのコンピューティングリソースが必要です。
論文 参考訳(メタデータ) (2024-05-08T12:57:53Z) - Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - ControlStyle: Text-Driven Stylized Image Generation Using Diffusion
Priors [105.37795139586075]
そこで本研究では,テキスト駆動型スタイリング画像生成という,テキスト・イメージ・モデルをスタイリングするための新しいタスクを提案する。
トレーニング可能な変調ネットワークで事前訓練されたテキスト・ツー・イメージモデルをアップグレードすることで,新しい拡散モデル(ControlStyle)を提案する。
実験では、より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性が示されています。
論文 参考訳(メタデータ) (2023-11-09T15:50:52Z) - MSSRNet: Manipulating Sequential Style Representation for Unsupervised
Text Style Transfer [82.37710853235535]
教師なしのテキストスタイル転送タスクは、メインのコンテンツを保持しながらテキストをターゲットのスタイルに書き換えることを目的としている。
従来の方法では、固定サイズのベクトルを使ってテキストスタイルを規制するが、個々のトークンのスタイル強度を正確に伝達することは困難である。
提案手法は,テキスト中の各トークンに個々のスタイルベクトルを割り当てることでこの問題に対処する。
論文 参考訳(メタデータ) (2023-06-12T13:12:29Z) - Improving Diffusion Models for Scene Text Editing with Dual Encoders [44.12999932588205]
シーンテキスト編集(Scene text editing)は、特定のテキストを画像に修正または挿入する作業である。
拡散モデルの最近の進歩は、これらの制限をテキスト条件による画像編集で克服することを約束している。
デュアルエンコーダ設計による事前学習拡散モデルを改善するためにDIFFSTEを提案する。
論文 参考訳(メタデータ) (2023-04-12T02:08:34Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。