論文の概要: Toward Real-world Text Image Forgery Localization: Structured and Interpretable Data Synthesis
- arxiv url: http://arxiv.org/abs/2511.12658v1
- Date: Sun, 16 Nov 2025 15:43:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.42959
- Title: Toward Real-world Text Image Forgery Localization: Structured and Interpretable Data Synthesis
- Title(参考訳): 実世界のテキスト・フォージェリー・ローカライゼーションに向けて:構造化と解釈可能なデータ合成
- Authors: Zeqin Yu, Haotao Xie, Jian Zhang, Jiangqun Ni, Wenkan Su, Jiwu Huang,
- Abstract要約: タンパリング合成(英: Tampering Synthesis、FSTS)は、タンパリングされたテキストイメージを合成するための構造化および解釈可能なフレームワークである。
FSTSは5つの代表的なタンパリングタイプから16,750の現実世界のタンパリングインスタンスを収集する。
FSTSは、現実世界の偽の痕跡をよりよく反映する、多種多様な現実的なトレーニングデータを合成する。
- 参考スコア(独自算出の注目度): 40.047195497231584
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing Text Image Forgery Localization (T-IFL) methods often suffer from poor generalization due to the limited scale of real-world datasets and the distribution gap caused by synthetic data that fails to capture the complexity of real-world tampering. To tackle this issue, we propose Fourier Series-based Tampering Synthesis (FSTS), a structured and interpretable framework for synthesizing tampered text images. FSTS first collects 16,750 real-world tampering instances from five representative tampering types, using a structured pipeline that records human-performed editing traces via multi-format logs (e.g., video, PSD, and editing logs). By analyzing these collected parameters and identifying recurring behavioral patterns at both individual and population levels, we formulate a hierarchical modeling framework. Specifically, each individual tampering parameter is represented as a compact combination of basis operation-parameter configurations, while the population-level distribution is constructed by aggregating these behaviors. Since this formulation draws inspiration from the Fourier series, it enables an interpretable approximation using basis functions and their learned weights. By sampling from this modeled distribution, FSTS synthesizes diverse and realistic training data that better reflect real-world forgery traces. Extensive experiments across four evaluation protocols demonstrate that models trained with FSTS data achieve significantly improved generalization on real-world datasets. Dataset is available at \href{https://github.com/ZeqinYu/FSTS}{Project Page}.
- Abstract(参考訳): 既存のテキスト・イメージ・フォージェリー・ローカライゼーション(T-IFL)手法は、実世界のデータセットの限られた規模と、実世界のタンパリングの複雑さを捉えるのに失敗する合成データによる分散ギャップによって、しばしば一般化の貧弱に悩まされる。
そこで本研究では,テキスト画像の合成のための構造化・解釈可能なフレームワークであるFourier Series-based Tampering Synthesis (FSTS)を提案する。
FSTSはまず、マルチフォーマットログ(ビデオ、PSD、編集ログなど)を介して人為的な編集トレースを記録する構造化パイプラインを使用して、5つの代表的な改ざんタイプから16,750の現実世界の改ざんインスタンスを収集する。
これらのパラメータを解析し、個体群と個体群の両方で繰り返し発生する行動パターンを同定することにより、階層的モデリングの枠組みを定式化する。
具体的には,各タンパパラメータを基本動作パラメータ構成のコンパクトな組み合わせとして表現し,集団レベルの分布はこれらの挙動を集約して構成する。
この定式化はフーリエ級数からインスピレーションを得るため、基底関数とその学習重みを用いた解釈可能な近似を可能にする。
このモデル分布からサンプリングすることで、FSTSは現実世界の偽の痕跡をよりよく反映する多様で現実的な訓練データを合成する。
4つの評価プロトコルにまたがる大規模な実験により、FSTSデータで訓練されたモデルが実世界のデータセットの一般化を大幅に改善することを示した。
Dataset は \href{https://github.com/ZeqinYu/FSTS}{Project Page} で入手できる。
関連論文リスト
- Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data [53.040873127309766]
本稿では,トランスアーキテクチャ内でのトークンのアンタングル化プロセスを提案し,特徴分離を向上し,より効果的な学習を実現する。
提案手法は,データセット内およびデータセット間の評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - LLMSynthor: Macro-Aligned Micro-Records Synthesis with Large Language Models [20.767947974005168]
LLM Synthorは、ターゲットのマクロ統計と一致した現実的なマイクロレコードを生成するマクロ認識シミュレータである。
合成データセットを反復的に構築し、合成アグリゲーションとターゲットアグリゲーションの差を最小限に抑える。
強力な現実主義、統計的忠実さ、実用性を実現し、経済学、社会科学、都市研究に広く応用されている。
論文 参考訳(メタデータ) (2025-05-20T13:35:38Z) - Dataset Distillation with Probabilistic Latent Features [9.318549327568695]
合成データのコンパクトなセットは、下流の分類タスクにおける元のデータセットを効果的に置き換えることができる。
本稿では,潜在特徴の共分散をモデル化する新しい手法を提案する。
提案手法は,バックボーンアーキテクチャにまたがる最先端のクロスアーキテクチャ性能を実現する。
論文 参考訳(メタデータ) (2025-05-10T13:53:49Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - DIFFormer: Scalable (Graph) Transformers Induced by Energy Constrained
Diffusion [66.21290235237808]
本稿では,データセットからのインスタンスのバッチを進化状態にエンコードするエネルギー制約拡散モデルを提案する。
任意のインスタンス対間の対拡散強度に対する閉形式最適推定を示唆する厳密な理論を提供する。
各種タスクにおいて優れた性能を有する汎用エンコーダバックボーンとして,本モデルの適用性を示す実験を行った。
論文 参考訳(メタデータ) (2023-01-23T15:18:54Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。