論文の概要: AIForge-Doc: A Benchmark for Detecting AI-Forged Tampering in Financial and Form Documents
- arxiv url: http://arxiv.org/abs/2602.20569v1
- Date: Tue, 24 Feb 2026 05:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.619544
- Title: AIForge-Doc: A Benchmark for Detecting AI-Forged Tampering in Financial and Form Documents
- Title(参考訳): AIForge-Doc: ファイナンシャルおよびフォームドキュメンテーションでAIが生成した改ざんを検出するベンチマーク
- Authors: Jiaqi Wu, Yuchen Zhou, Muduo Xu, Zisheng Liang, Simiao Ren, Jiayu Xue, Meige Yang, Siying Chen, Jingheng Huan,
- Abstract要約: 我々は,ファイナンシャルおよびフォーム文書にピクセルレベルのアノテーションを付加した拡散モデルベースの塗り絵のみを対象とする,最初の専用ベンチマークであるAIForge-Docを紹介する。
TruFor、DocTamper、ゼロショットGPT-4oの3つの代表検出器をベンチマークした結果、既存のメソッドはすべて大幅に劣化していることがわかった。
- 参考スコア(独自算出の注目度): 7.014776899553499
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present AIForge-Doc, the first dedicated benchmark targeting exclusively diffusion-model-based inpainting in financial and form documents with pixel-level annotation. Existing document forgery datasets rely on traditional digital editing tools (e.g., Adobe Photoshop, GIMP), creating a critical gap: state-of-the-art detectors are blind to the rapidly growing threat of AI-forged document fraud. AIForge-Doc addresses this gap by systematically forging numeric fields in real-world receipt and form images using two AI inpainting APIs -- Gemini 2.5 Flash Image and Ideogram v2 Edit -- yielding 4,061 forged images from four public document datasets (CORD, WildReceipt, SROIE, XFUND) across nine languages, annotated with pixel-precise tampered-region masks in DocTamper-compatible format. We benchmark three representative detectors -- TruFor, DocTamper, and a zero-shot GPT-4o judge -- and find that all existing methods degrade substantially: TruFor achieves AUC=0.751 (zero-shot, out-of-distribution) vs. AUC=0.96 on NIST16; DocTamper achieves AUC=0.563 vs. AUC=0.98 in-distribution, with pixel-level IoU=0.020; GPT-4o achieves only 0.509 -- essentially at chance -- confirming that AI-forged values are indistinguishable to automated detectors and VLMs. These results demonstrate that AIForge-Doc represents a qualitatively new and unsolved challenge for document forensics.
- Abstract(参考訳): 我々は,ファイナンシャルおよびフォーム文書にピクセルレベルのアノテーションを付加した拡散モデルベースの塗り絵のみを対象とする,最初の専用ベンチマークであるAIForge-Docを紹介する。
既存の文書偽造データセットは、従来のデジタル編集ツール(Adobe Photoshop、GIMPなど)に依存しており、重要なギャップを生み出している。
AIForge-Docは、実世界のレシートで数値フィールドを体系的に鍛造し、2つのAIインペイントAPI(Gemini 2.5 Flash ImageとIdeogram v2 Edit)を使用して画像を形成することで、このギャップに対処する。
TruFor は AUC=0.751 (0o-shot, out-of-distribution) vs. AUC=0.96 on NIST16; DocTamper は AUC=0.563 vs. AUC=0.98 in-distribution, with pixel-level IoU=0.020; GPT-4o は 0.509 -- 基本的にはAI が自動検出器や VLM と区別できないことを証明している。
これらの結果は、AIForge-Docが文書鑑識にとって定性的に新しく未解決の課題であることを示している。
関連論文リスト
- Dolphin-v2: Universal Document Parsing via Scalable Anchor Prompting [46.102790941920865]
2段階の文書画像解析モデルであるDolphin-v2を提案する。
第1段階では、Dolphin-v2 はレイアウト解析とともに文書型分類(デジタル生まれか写真か)を共同で行う。
第2段階では、撮影された文書は、幾何学的歪みを処理するために全ページとして一様に解析されるのに対し、デジタル生まれの文書は、検出されたレイアウトアンカーによって案内される要素的並列解析を行う。
論文 参考訳(メタデータ) (2026-02-05T07:09:57Z) - CO-SPY: Combining Semantic and Pixel Features to Detect Synthetic Images by AI [58.35348718345307]
実際の画像とAI生成画像を区別する現在の取り組みには、一般化が欠如している可能性がある。
既存のセマンティック機能を強化した新しいフレームワークCo-Spyを提案する。
また、5つの実画像データセットと22の最先端生成モデルからなる包括的データセットであるCo-Spy-Benchを作成します。
論文 参考訳(メタデータ) (2025-03-24T01:59:29Z) - Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。
機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。
ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文 参考訳(メタデータ) (2024-09-24T08:46:13Z) - Watermark Text Pattern Spotting in Document Images [3.6298655794854464]
書字は様々なフォントやサイズ、形式に分類できるため、一般的な認識は非常に難しい問題である。
Wrenderを用いて生成された65,447個のデータサンプルを含む新しいベンチマーク(K-Watermark)を提案する。
人間のレーダを用いた妥当性調査では、予め作成された透かし文書に対する信頼度スコアが0.11である。
論文 参考訳(メタデータ) (2024-01-10T14:02:45Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。