論文の概要: ADCD-Net: Robust Document Image Forgery Localization via Adaptive DCT Feature and Hierarchical Content Disentanglement
- arxiv url: http://arxiv.org/abs/2507.16397v1
- Date: Tue, 22 Jul 2025 09:48:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.051475
- Title: ADCD-Net: Robust Document Image Forgery Localization via Adaptive DCT Feature and Hierarchical Content Disentanglement
- Title(参考訳): ADCD-Net:Adaptive DCT特徴と階層的コンテンツ歪みによるロバスト文書画像偽造
- Authors: Kahim Wong, Jicheng Zhou, Haiwei Wu, Yain-Whar Si, Jiantao Zhou,
- Abstract要約: ADCD-Netは、RGB/DCT法定トレースを適応的に活用する頑健な文書フォージェリーローカライゼーションモデルである。
提案するADCD-Netは,5種類の歪みの平均値が20.79%向上し,より優れたフォージェリーローカライゼーション性能を示した。
- 参考スコア(独自算出の注目度): 18.283496080974924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of image editing tools has enabled malicious manipulation of sensitive document images, underscoring the need for robust document image forgery detection.Though forgery detectors for natural images have been extensively studied, they struggle with document images, as the tampered regions can be seamlessly blended into the uniform document background (BG) and structured text. On the other hand, existing document-specific methods lack sufficient robustness against various degradations, which limits their practical deployment. This paper presents ADCD-Net, a robust document forgery localization model that adaptively leverages the RGB/DCT forensic traces and integrates key characteristics of document images. Specifically, to address the DCT traces' sensitivity to block misalignment, we adaptively modulate the DCT feature contribution based on a predicted alignment score, resulting in much improved resilience to various distortions, including resizing and cropping. Also, a hierarchical content disentanglement approach is proposed to boost the localization performance via mitigating the text-BG disparities. Furthermore, noticing the predominantly pristine nature of BG regions, we construct a pristine prototype capturing traces of untampered regions, and eventually enhance both the localization accuracy and robustness. Our proposed ADCD-Net demonstrates superior forgery localization performance, consistently outperforming state-of-the-art methods by 20.79\% averaged over 5 types of distortions. The code is available at https://github.com/KAHIMWONG/ACDC-Net.
- Abstract(参考訳): 画像編集ツールの進歩により、機密文書画像の悪意的な操作が可能となり、頑健な文書画像偽造検出の必要性が強調され、自然画像の偽造検出が広範に研究されているが、改ざんされた領域を統一文書背景(BG)と構造化テキストにシームレスにブレンドできるため、文書画像に苦慮している。
一方、既存の文書固有の手法は、様々な劣化に対して十分な堅牢性を欠いているため、実際のデプロイメントは制限されている。
本稿では,RGB/DCTの法医学的トレースを適応的に活用し,文書画像の重要な特徴を統合する頑健な文書フォージェリーローカライズモデルADCD-Netを提案する。
具体的には,DCTトレーサの異常修正に対する感度に対処するため,予測したアライメントスコアに基づいてDCT特徴の寄与を適応的に調整し,リサイズやトリミングなどの様々な歪みに対するレジリエンスを大幅に改善する。
また,テキストBGの相違を緩和し,局所化性能を高めるために,階層的コンテンツ・アンタングル化手法を提案する。
さらに,BG領域の原始的性質に注目し,未改変領域の痕跡を捕捉するプリスタンププロトタイプを構築し,最終的に局所化精度とロバスト性の両方を向上する。
提案したADCD-Netは,5種類の歪みに対して平均20.79 %の精度で,より優れたフォージェリローカライゼーション性能を示す。
コードはhttps://github.com/KAHIMWONG/ACDC-Netで公開されている。
関連論文リスト
- DvD: Unleashing a Generative Paradigm for Document Dewarping via Coordinates-based Diffusion Model [25.504170988714783]
ドキュメンテーションデワープは、写真文書画像の変形を補正することを目的としており、テキストの可読性を向上させる。
我々はtextbfDiffusion フレームワークを用いて textbfDewarping textbf に取り組むための最初の生成モデル DvD を提案する。
論文 参考訳(メタデータ) (2025-05-28T05:05:51Z) - Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach [69.01456182499486]
textbfBR-Genは、さまざまなシーン認識アノテーションを備えた15万のローカル鍛造イメージの大規模なデータセットである。
textbfNFA-ViTはノイズ誘導フォージェリ増幅ビジョン変換器で、ローカライズされたフォージェリの検出を強化する。
論文 参考訳(メタデータ) (2025-04-16T09:57:23Z) - LIME: Localized Image Editing via Attention Regularization in Diffusion Models [69.33072075580483]
本稿では拡散モデルにおける局所化画像編集のためのLIMEを提案する。
LIMEは、ユーザが指定した関心領域(RoI)や追加のテキスト入力を必要としない。
そこで本研究では,RoIにおける非関係なクロスアテンションスコアをデノナイジングステップ中にペナライズし,局所的な編集を確実にする新しいクロスアテンション正規化手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T18:59:59Z) - Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing [58.48890547818074]
潜在拡散モデル(LDM)に対するコントラストデノナイジングスコア(CUT)の強力な修正を提案する。
提案手法により,ゼロショット画像から画像への変換とニューラルフィールド(NeRF)の編集が可能となり,入力と出力の間の構造的対応が達成される。
論文 参考訳(メタデータ) (2023-11-30T15:06:10Z) - CTP-Net: Character Texture Perception Network for Document Image Forgery
Localization [28.48117743313255]
文書画像中の偽領域をローカライズする文字テクスチャ知覚ネットワーク(CTP-Net)を提案する。
文書画像のセマンティクスを持つ文字は非常に脆弱であるため、偽のトレースをキャプチャすることが偽の領域をローカライズする鍵となる。
The proposed-Net can be localize multi-scale forged area in document images, and outform out of the-of-the-art forgery localization methods。
論文 参考訳(メタデータ) (2023-08-04T06:37:28Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Document Image Binarization in JPEG Compressed Domain using Dual
Discriminator Generative Adversarial Networks [0.0]
提案したモデルは、穴、消し去られた、あるいは汚されたインク、粉塵、ずれた繊維といった課題を持つDIBCOデータセットのさまざまなバージョンで徹底的にテストされている。
このモデルは非常に堅牢で、時間と空間の複雑さの両面で効率的であることが証明され、JPEG圧縮領域における最先端の性能がもたらされた。
論文 参考訳(メタデータ) (2022-09-13T12:07:32Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - Dewarping Document Image By Displacement Flow Estimation with Fully
Convolutional Network [30.18238229156996]
完全畳み込みネットワーク(FCN)を用いて歪んだ文書イメージを補正し、背景を細かく除去する枠組みを提案する。
FCNは, 合成歪み文書の変位を後退させて訓練し, 変位の滑らかさを制御するために, 正規化における局所平滑制約 (LSC) を提案する。
実験により,様々な幾何学的歪みの下で文書画像が効果的に変形できることが証明され,局所的詳細と全体的効果の観点から最先端の性能が得られた。
論文 参考訳(メタデータ) (2021-04-14T12:32:36Z) - DE-GAN: A Conditional Generative Adversarial Network for Document
Enhancement [4.073826298938431]
本稿では,高度に劣化した文書イメージを復元するために,文書拡張生成適応ネットワーク(DE-GAN)と呼ばれるエンドツーエンドのフレームワークを提案する。
異なるタスク(文書のクリーンアップ、ビナライゼーション、デブロアリング、透かし除去)において、DE-GANは劣化した文書を高品質に拡張できることを示した。
論文 参考訳(メタデータ) (2020-10-17T10:54:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。