Fugu-MT 論文翻訳(概要): AIForge-Doc: A Benchmark for Detecting AI-Forged Tampering in Financial and Form Documents

論文の概要: AIForge-Doc: A Benchmark for Detecting AI-Forged Tampering in Financial and Form Documents

arxiv url: http://arxiv.org/abs/2602.20569v1
Date: Tue, 24 Feb 2026 05:37:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.619544
Title: AIForge-Doc: A Benchmark for Detecting AI-Forged Tampering in Financial and Form Documents
Title（参考訳）: AIForge-Doc: ファイナンシャルおよびフォームドキュメンテーションでAIが生成した改ざんを検出するベンチマーク
Authors: Jiaqi Wu, Yuchen Zhou, Muduo Xu, Zisheng Liang, Simiao Ren, Jiayu Xue, Meige Yang, Siying Chen, Jingheng Huan,
Abstract要約: 我々は,ファイナンシャルおよびフォーム文書にピクセルレベルのアノテーションを付加した拡散モデルベースの塗り絵のみを対象とする,最初の専用ベンチマークであるAIForge-Docを紹介する。 TruFor、DocTamper、ゼロショットGPT-4oの3つの代表検出器をベンチマークした結果、既存のメソッドはすべて大幅に劣化していることがわかった。
参考スコア（独自算出の注目度）: 7.014776899553499
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present AIForge-Doc, the first dedicated benchmark targeting exclusively diffusion-model-based inpainting in financial and form documents with pixel-level annotation. Existing document forgery datasets rely on traditional digital editing tools (e.g., Adobe Photoshop, GIMP), creating a critical gap: state-of-the-art detectors are blind to the rapidly growing threat of AI-forged document fraud. AIForge-Doc addresses this gap by systematically forging numeric fields in real-world receipt and form images using two AI inpainting APIs -- Gemini 2.5 Flash Image and Ideogram v2 Edit -- yielding 4,061 forged images from four public document datasets (CORD, WildReceipt, SROIE, XFUND) across nine languages, annotated with pixel-precise tampered-region masks in DocTamper-compatible format. We benchmark three representative detectors -- TruFor, DocTamper, and a zero-shot GPT-4o judge -- and find that all existing methods degrade substantially: TruFor achieves AUC=0.751 (zero-shot, out-of-distribution) vs. AUC=0.96 on NIST16; DocTamper achieves AUC=0.563 vs. AUC=0.98 in-distribution, with pixel-level IoU=0.020; GPT-4o achieves only 0.509 -- essentially at chance -- confirming that AI-forged values are indistinguishable to automated detectors and VLMs. These results demonstrate that AIForge-Doc represents a qualitatively new and unsolved challenge for document forensics.
Abstract（参考訳）: 我々は,ファイナンシャルおよびフォーム文書にピクセルレベルのアノテーションを付加した拡散モデルベースの塗り絵のみを対象とする,最初の専用ベンチマークであるAIForge-Docを紹介する。既存の文書偽造データセットは、従来のデジタル編集ツール(Adobe Photoshop、GIMPなど)に依存しており、重要なギャップを生み出している。 AIForge-Docは、実世界のレシートで数値フィールドを体系的に鍛造し、2つのAIインペイントAPI(Gemini 2.5 Flash ImageとIdeogram v2 Edit)を使用して画像を形成することで、このギャップに対処する。 TruFor は AUC=0.751 (0o-shot, out-of-distribution) vs. AUC=0.96 on NIST16; DocTamper は AUC=0.563 vs. AUC=0.98 in-distribution, with pixel-level IoU=0.020; GPT-4o は 0.509 -- 基本的にはAI が自動検出器や VLM と区別できないことを証明している。これらの結果は、AIForge-Docが文書鑑識にとって定性的に新しく未解決の課題であることを示している。

関連論文リスト

DOCFORGE-BENCH: A Comprehensive Benchmark for Document Forgery Detection and Analysis [7.0914801556869]
文書偽造検出のための最初の統一ゼロショットベンチマークであるDOCFORGE-BENCHを提案する。テキスト改ざん、レシート偽造、ID文書操作にまたがる8つのデータセットにまたがる14の手法を評価する。私たちの中心的な発見は、シングルスレッドプロトコルでは見えない、広範囲にわたるキャリブレーション障害です。
論文参考訳（メタデータ） (2026-03-02T04:26:57Z)
Dolphin-v2: Universal Document Parsing via Scalable Anchor Prompting [46.102790941920865]
2段階の文書画像解析モデルであるDolphin-v2を提案する。第1段階では、Dolphin-v2 はレイアウト解析とともに文書型分類(デジタル生まれか写真か)を共同で行う。第2段階では、撮影された文書は、幾何学的歪みを処理するために全ページとして一様に解析されるのに対し、デジタル生まれの文書は、検出されたレイアウトアンカーによって案内される要素的並列解析を行う。
論文参考訳（メタデータ） (2026-02-05T07:09:57Z)
EdgeDoc: Hybrid CNN-Transformer Model for Accurate Forgery Detection and Localization in ID Documents [6.690084812573466]
EdgeDocは、ドキュメント偽造者の検出とローカライズのための新しいアプローチである。我々のアーキテクチャは、軽量な畳み込み変換器と、画像から抽出した補助的なノイズプリント機能を組み合わせたものである。
論文参考訳（メタデータ） (2025-08-22T10:45:14Z)
CO-SPY: Combining Semantic and Pixel Features to Detect Synthetic Images by AI [58.35348718345307]
実際の画像とAI生成画像を区別する現在の取り組みには、一般化が欠如している可能性がある。既存のセマンティック機能を強化した新しいフレームワークCo-Spyを提案する。また、5つの実画像データセットと22の最先端生成モデルからなる包括的データセットであるCo-Spy-Benchを作成します。
論文参考訳（メタデータ） (2025-03-24T01:59:29Z)
Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。 ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文参考訳（メタデータ） (2024-09-24T08:46:13Z)
UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文参考訳（メタデータ） (2024-09-06T08:02:43Z)
Watermark Text Pattern Spotting in Document Images [3.6298655794854464]
書字は様々なフォントやサイズ、形式に分類できるため、一般的な認識は非常に難しい問題である。 Wrenderを用いて生成された65,447個のデータサンプルを含む新しいベンチマーク(K-Watermark)を提案する。人間のレーダを用いた妥当性調査では、予め作成された透かし文書に対する信頼度スコアが0.11である。
論文参考訳（メタデータ） (2024-01-10T14:02:45Z)
DocMAE: Document Image Rectification via Self-supervised Representation Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文参考訳（メタデータ） (2023-04-20T14:27:15Z)
Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文参考訳（メタデータ） (2023-04-18T08:00:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。