論文の概要: TripleFDS: Triple Feature Disentanglement and Synthesis for Scene Text Editing
- arxiv url: http://arxiv.org/abs/2511.13399v1
- Date: Mon, 17 Nov 2025 14:15:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.291228
- Title: TripleFDS: Triple Feature Disentanglement and Synthesis for Scene Text Editing
- Title(参考訳): TripleFDS: シーンテキスト編集のための3つの特徴区切りと合成
- Authors: Yuchen Bao, Yiting Wang, Wenjian Huang, Haowei Wang, Shen Chen, Taiping Yao, Shouhong Ding, Jianguo Zhang,
- Abstract要約: STE(Scene Text Editing)は、視覚的一貫性を維持しながら、画像中のテキストを自然に修正することを目的としている。
本稿では,モジュラー属性をアンタングル化したSTEのための新しいフレームワークであるTripleFDSを提案する。
TripleFDSは、メインストリームのSTEベンチマークで最先端の画像忠実度(SSIM 44.54)とテキスト精度(ACC 93.58%)を達成する。
- 参考スコア(独自算出の注目度): 56.73004765030206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene Text Editing (STE) aims to naturally modify text in images while preserving visual consistency, the decisive factors of which can be divided into three parts, i.e., text style, text content, and background. Previous methods have struggled with incomplete disentanglement of editable attributes, typically addressing only one aspect - such as editing text content - thus limiting controllability and visual consistency. To overcome these limitations, we propose TripleFDS, a novel framework for STE with disentangled modular attributes, and an accompanying dataset called SCB Synthesis. SCB Synthesis provides robust training data for triple feature disentanglement by utilizing the "SCB Group", a novel construct that combines three attributes per image to generate diverse, disentangled training groups. Leveraging this construct as a basic training unit, TripleFDS first disentangles triple features, ensuring semantic accuracy through inter-group contrastive regularization and reducing redundancy through intra-sample multi-feature orthogonality. In the synthesis phase, TripleFDS performs feature remapping to prevent "shortcut" phenomena during reconstruction and mitigate potential feature leakage. Trained on 125,000 SCB Groups, TripleFDS achieves state-of-the-art image fidelity (SSIM of 44.54) and text accuracy (ACC of 93.58%) on the mainstream STE benchmarks. Besides superior performance, the more flexible editing of TripleFDS supports new operations such as style replacement and background transfer. Code: https://github.com/yusenbao01/TripleFDS
- Abstract(参考訳): STE(Scene Text Editing)は、画像中のテキストを視覚的一貫性を維持しながら自然に修正することを目的としており、その決定的な要素は、テキストスタイル、テキストコンテンツ、背景の3つの部分に分けられる。
それまでの方法では、編集可能な属性の不完全な切り離しに苦労しており、通常はテキストの内容の編集のような1つの側面だけに対処するため、制御性や視覚的一貫性が制限されていた。
これらの制約を克服するため,STEの新しいフレームワークであるTripleFDSと,それに伴うSCB合成データセットを提案する。
SCB合成は、画像ごとに3つの属性を組み合わせて多種多様な非絡み合いのトレーニンググループを生成する新しい構成である「SCBグループ」を利用して、3つの特徴非絡み合いのための堅牢なトレーニングデータを提供する。
この構造を基本的な訓練単位として活用することにより、TripleFDSは3つの特徴をまず切り離し、グループ間のコントラスト正則化による意味的精度を確保し、サンプル内の多機能直交による冗長性を低減する。
合成段階では、TripleFDSは、復元中の「ショートカット」現象を防止し、潜在的な特徴リークを軽減するために機能リマッピングを行う。
125,000のSCBグループでトレーニングされたTripleFDSは、メインストリームのSTEベンチマークで最先端の画像忠実度(SSIM 44.54)とテキスト精度(ACC 93.58%)を達成する。
優れたパフォーマンスに加えて、より柔軟なTripleFDSの編集はスタイル置換やバックグラウンド転送といった新しい操作をサポートする。
コード:https://github.com/yusenbao01/TripleFDS
関連論文リスト
- From Mapping to Composing: A Two-Stage Framework for Zero-shot Composed Image Retrieval [30.33315985826623]
Composed Image Retrieval (CIR) は、参照画像と付随する修正テキストに基づいてターゲット画像を取得する、困難なマルチモーダルタスクである。
本稿では,マッピングから構成に至るまでのトレーニングを行うための2段階のフレームワークを提案する。
最初の段階では、視覚的意味注入モジュールを導入して、画像から擬似単語へのトークン学習を強化する。
第2段階では、少量の合成三重項データを用いてテキストエンコーダを最適化し、合成意味論を効果的に抽出する。
論文 参考訳(メタデータ) (2025-04-25T00:18:23Z) - Data-Efficient Generalization for Zero-shot Composed Image Retrieval [67.46975191141928]
ZS-CIRは、トレーニングのために配布する三つ子を必要とせず、参照画像とテキスト記述に基づいて対象画像を検索することを目的としている。
1つの一般的なアプローチは、マッピングネットワークを用いてテキスト埋め込み空間内の擬似ワードトークンに画像埋め込みを転送するビジョン言語事前学習パラダイムである。
テキスト・サプリメント(TS)モジュールとセマンティック・セット(S-Set)という2つの新しい設計を含む,データ効率の一般化(DeG)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-07T07:49:31Z) - PDV: Prompt Directional Vectors for Zero-shot Composed Image Retrieval [35.19203010854668]
Composed Image Retrieval (ZS-CIR) は、大規模なペアデータで訓練された特殊なテキスト画像合成ネットワークを必要とせず、参照画像とテキストプロンプトを用いた画像検索を可能にする。
textbfPrompt Directional Vector (PDV)は、ユーザプロンプトによって誘導されるセマンティックな修正をキャプチャする、シンプルで効果的なトレーニング不要拡張である。
PDVは、3つの重要な改善を可能にしている。(1) 即時調整をスケーリング係数で制御可能な動的合成テキスト埋め込み、(2) テキストプロンプトから画像特徴へのセマンティックトランスファーによる合成画像埋め込み、(3) 合成テキストと画像埋め込みの重み付け融合である。
論文 参考訳(メタデータ) (2025-02-11T03:20:21Z) - Modality and Task Adaptation for Enhanced Zero-shot Composed Image Retrieval [20.612534837883892]
Zero-Shot Composed Image Retrieval (ZS-CIR) はバイモーダル (image+text) クエリを用いてターゲット画像を取得するように設計されている。
本稿では,2つのコンポーネントからなる軽量なポストホックフレームワークを提案する。
実験により,提案するコンポーネントを組み込むことで,インバージョンに基づく手法が大幅な改善を実現することが示された。
論文 参考訳(メタデータ) (2024-10-31T08:49:05Z) - No Re-Train, More Gain: Upgrading Backbones with Diffusion model for Pixel-Wise and Weakly-Supervised Few-Shot Segmentation [22.263029309151467]
Few-Shot (FSS) は、注釈付き画像のみを使用して、新しいクラスを分割することを目的としている。
現在のFSSメソッドでは、再トレーニングなしでのバックボーンアップグレードの柔軟性、さまざまなアノテーションを均一に扱うことができない、という3つの問題に直面している。
本稿では,FSSタスクを拡散過程を用いた条件生成問題として概念化する新しいフレームワークであるDiffUpを提案する。
論文 参考訳(メタデータ) (2024-07-23T05:09:07Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - PV2TEA: Patching Visual Modality to Textual-Established Information
Extraction [59.76117533540496]
我々は、その視覚的モダリティをテキスト化された属性情報抽出器にパッチする。
PV2TEAは3つのバイアス低減方式を備えたエンコーダデコーダアーキテクチャである。
実世界のeコマースデータセットに関する実証的な結果は、絶対値11.74%(相対値20.97%)のF1の増加を示す。
論文 参考訳(メタデータ) (2023-06-01T05:39:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。