論文の概要: Towards Training-Free Scene Text Editing
- arxiv url: http://arxiv.org/abs/2603.24571v1
- Date: Wed, 25 Mar 2026 17:50:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.419928
- Title: Towards Training-Free Scene Text Editing
- Title(参考訳): 学習不要のシーンテキスト編集を目指して
- Authors: Yubo Li, Xugong Qin, Peng Zhang, Hailun Lin, Gangyan Zeng, Kexin Zhang,
- Abstract要約: シーンテキスト編集は、自然画像のテキスト内容を変更することを目的としている。
既存の方法はタスク固有のトレーニングやペアデータを必要とすることが多い。
トレーニング不要なシーンテキスト編集フレームワークであるTextFlowを提案する。
- 参考スコア(独自算出の注目度): 14.724015832146463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene text editing seeks to modify textual content in natural images while maintaining visual realism and semantic consistency. Existing methods often require task-specific training or paired data, limiting their scalability and adaptability. In this paper, we propose TextFlow, a training-free scene text editing framework that integrates the strengths of Attention Boost (AttnBoost) and Flow Manifold Steering (FMS) to enable flexible, high-fidelity text manipulation without additional training. Specifically, FMS preserves the structural and style consistency by modeling the visual flow of characters and background regions, while AttnBoost enhances the rendering of textual content through attention-based guidance. By jointly leveraging these complementary modules, our approach performs end-to-end text editing through semantic alignment and spatial refinement in a plug-and-play manner. Extensive experiments demonstrate that our framework achieves visual quality and text accuracy comparable to or superior to those of training-based counterparts, generalizing well across diverse scenes and languages. This study advances scene text editing toward a more efficient, generalizable, and training-free paradigm. Code is available at https://github.com/lyb18758/TextFlow
- Abstract(参考訳): シーンテキスト編集は、視覚的リアリズムと意味的一貫性を維持しながら、自然画像のテキスト内容を変更することを目指している。
既存の方法は、しばしばタスク固有のトレーニングやペアデータを必要とし、スケーラビリティと適応性を制限する。
本稿では,AttnBoost (AttnBoost) とフローマニフォールドステアリング (FMS) の長所を統合した学習不要なシーンテキスト編集フレームワーク TextFlow を提案する。
特に、FMSは文字と背景領域の視覚的フローをモデル化することで構造とスタイルの整合性を保ち、AttnBoostは注意に基づくガイダンスを通じてテキストコンテンツのレンダリングを強化する。
これらの相補的モジュールを協調的に活用することにより、本手法は、意味的アライメントと空間的リファインメントをプラグ・アンド・プレイで行うことによって、エンドツーエンドのテキスト編集を行う。
大規模な実験により、我々のフレームワークは、トレーニングベースと同等かそれ以上の視覚的品質とテキストの精度を達成でき、多様な場面や言語にまたがってうまく一般化されていることが示された。
本研究では,より効率的で汎用的でトレーニング不要なパラダイムに向けて,シーンテキスト編集を推進している。
コードはhttps://github.com/lyb18758/TextFlowで入手できる。
関連論文リスト
- TextGuider: Training-Free Guidance for Text Rendering via Attention Alignment [68.91073792449201]
そこで本研究では,テキストの正確かつ完全な出現を促すトレーニング不要な方法であるTextGuiderを提案する。
具体的には,多モード拡散変換器(MM-DiT)モデルにおける注意パターンを解析し,特に画像に描画することを意図したテキスト関連トークンについて検討する。
テスト時間テキストレンダリングでは,OCR精度とCLIPスコアが大幅に向上し,高い結果が得られた。
論文 参考訳(メタデータ) (2025-12-10T06:18:30Z) - SceneTextStylizer: A Training-Free Scene Text Style Transfer Framework with Diffusion Model [4.785724079054428]
SceneTextStylizerは、シーンイメージ中のテキストを柔軟かつ高忠実に転送するためのトレーニング不要な拡散ベースのフレームワークである。
本手法は,テキストの読みやすさとスタイル整合性の両方を保ちながら,テキスト領域に特化して,プロンプト誘導型スタイル変換を実現する。
論文 参考訳(メタデータ) (2025-10-13T02:11:57Z) - FLUX-Text: A Simple and Advanced Diffusion Transformer Baseline for Scene Text Editing [15.626092015533072]
シーンテキスト編集は、背景に整合したテキストの忠実さと全体的な視覚的品質を確保しながら、画像上のテキストを修正または追加することを目的としている。
最近の手法は主にUNetベースの拡散モデルに基づいており、シーンテキストの編集結果が改善されたが、複雑なグリフ構造に苦戦している。
単純かつ高度な多言語シーンテキスト編集用DiT法である textbfFLUX-Text を提案する。
論文 参考訳(メタデータ) (2025-05-06T08:56:28Z) - Beyond Flat Text: Dual Self-inherited Guidance for Visual Text Generation [17.552733309504486]
現実のイメージでは、斜めまたは湾曲したテキスト、特に缶、バナー、バッジは、芸術的なデザインやレイアウトの制約により、平らなテキストのように頻繁に現れる。
難易度の高いシナリオで視覚テキストを正確に生成する新しいトレーニングフリーフレームワークSTGenを導入する。
論文 参考訳(メタデータ) (2025-01-10T11:44:59Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Improving Diffusion Models for Scene Text Editing with Dual Encoders [44.12999932588205]
シーンテキスト編集(Scene text editing)は、特定のテキストを画像に修正または挿入する作業である。
拡散モデルの最近の進歩は、これらの制限をテキスト条件による画像編集で克服することを約束している。
デュアルエンコーダ設計による事前学習拡散モデルを改善するためにDIFFSTEを提案する。
論文 参考訳(メタデータ) (2023-04-12T02:08:34Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。