論文の概要: DocShield: Towards AI Document Safety via Evidence-Grounded Agentic Reasoning
- arxiv url: http://arxiv.org/abs/2604.02694v1
- Date: Fri, 03 Apr 2026 03:38:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.308451
- Title: DocShield: Towards AI Document Safety via Evidence-Grounded Agentic Reasoning
- Title(参考訳): DocShield:Evidence-Grounded Agentic Reasoningを通じてAIドキュメントの安全性を目指す
- Authors: Fanwei Zeng, Changtao Miao, Jing Huang, Zhiya Tan, Shutao Gong, Xiaoming Yu, Yang Wang, Weibin Yao, Joey Tianyi Zhou, Jianshu Li, Yin Yan,
- Abstract要約: 既存の法医学的手法は視覚的手がかりに依存しており、微妙なテキスト操作を明らかにするための証拠に基づく推論が欠如している。
本稿では,テキスト中心の偽造分析を視覚学的共推論問題として定式化した最初の統合フレームワークであるDocShieldを提案する。
私たちのデータセット、モデル、コードは公開されます。
- 参考スコア(独自算出の注目度): 40.557106473604485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress of generative AI has enabled increasingly realistic text-centric image forgeries, posing major challenges to document safety. Existing forensic methods mainly rely on visual cues and lack evidence-based reasoning to reveal subtle text manipulations. Detection, localization, and explanation are often treated as isolated tasks, limiting reliability and interpretability. To tackle these challenges, we propose DocShield, the first unified framework formulating text-centric forgery analysis as a visual-logical co-reasoning problem. At its core, a novel Cross-Cues-aware Chain of Thought (CCT) mechanism enables implicit agentic reasoning, iteratively cross-validating visual anomalies with textual semantics to produce consistent, evidence-grounded forensic analysis. We further introduce a Weighted Multi-Task Reward for GRPO-based optimization, aligning reasoning structure, spatial evidence, and authenticity prediction. Complementing the framework, we construct RealText-V1, a multilingual dataset of document-like text images with pixel-level manipulation masks and expert-level textual explanations. Extensive experiments show DocShield significantly outperforms existing methods, improving macro-average F1 by 41.4% over specialized frameworks and 23.4% over GPT-4o on T-IC13, with consistent gains on the challenging T-SROIE benchmark. Our dataset, model, and code will be publicly released.
- Abstract(参考訳): 生成AIの急速な進歩は、ますます現実的なテキスト中心の画像偽造を可能にし、安全性を文書化する上で大きな課題となっている。
既存の法医学的手法は主に視覚的手がかりに依存しており、微妙なテキスト操作を明らかにするための証拠に基づく推論が欠如している。
検出、局所化、説明はしばしば独立したタスクとして扱われ、信頼性と解釈可能性を制限する。
これらの課題に対処するために,テキスト中心の偽造分析を視覚学的共起問題として定式化した最初の統合フレームワークであるDocShieldを提案する。
CCT(Cross-Cues-aware Chain of Thought)メカニズムの中核となるのは、暗黙のエージェント的推論と、テキスト意味論による反復的に相互検証された視覚異常を可能にし、一貫した根拠に基づく法医学的分析を生成することである。
さらに、GRPOに基づく最適化のための重み付きマルチタスク・リワード(Weighted Multi-Task Reward)を導入し、推論構造、空間的エビデンス、信頼度予測について述べる。
このフレームワークを補完するRealText-V1は,画素レベルの操作マスクと専門家レベルのテキスト説明を備えた,文書ライクなテキスト画像の多言語データセットである。
大規模な実験の結果、DocShieldは既存の手法を大幅に上回り、特定のフレームワークよりも平均F1を41.4%改善し、T-IC13ではGPT-4oを23.4%上回った。
私たちのデータセット、モデル、コードは公開されます。
関連論文リスト
- TextShield-R1: Reinforced Reasoning for Tampered Text Detection [48.66129052598456]
TextShield-R1は、最初の強化学習ベースのMLLMソリューションである。
本稿では,テキスト検出のためのMLLMを十分に準備した,手軽でハードなカリキュラムであるForensic Continual Pre-trainingを紹介する。
また、テキストフォレスシクス推論(TFR)ベンチマークを導入し、16言語で45万以上の実画像と改ざん画像を比較した。
論文 参考訳(メタデータ) (2026-02-23T13:26:18Z) - LogicLens: Visual-Logical Co-Reasoning for Text-Centric Forgery Analysis [10.305807834419765]
テキスト中心の偽造は、社会保障と情報認証に重大な脅威をもたらす。
テキスト中心の偽造分析の現在の手法は、粗い粒度の視覚分析に限られることが多い。
LogicLens は Visual-Textual Co-reasoning のための統合フレームワークである。
論文 参考訳(メタデータ) (2025-12-25T03:02:27Z) - CAMF: Collaborative Adversarial Multi-agent Framework for Machine Generated Text Detection [16.113113157328662]
既存のゼロショット検出パラダイムは、しばしば重大な欠陥を示す。
マルチLLMエージェントを用いた新しいアーキテクチャである textbfCAMF を紹介する。
この構造化された協調的・敵対的プロセスは、非人間の起源を示す微妙でクロス次元のテキストの不一致の深い分析を可能にする。
論文 参考訳(メタデータ) (2025-08-16T06:25:27Z) - From Prediction to Explanation: Multimodal, Explainable, and Interactive Deepfake Detection Framework for Non-Expert Users [21.627851460651968]
DF-P2E(Deepfake: Prediction to Explanation)は、視覚的、意味的、物語的な説明層を統合して、ディープフェイク検出を解釈し、アクセス可能にする新しいフレームワークである。
現在最も多様なディープフェイクデータセットであるDF40ベンチマークで、フレームワークをインスタンス化し、評価しています。
実験により,Grad-CAMアクティベーションに適合した高品質な説明を提供しながら,競合検出性能を実証した。
論文 参考訳(メタデータ) (2025-08-11T03:55:47Z) - Structured Attention Matters to Multimodal LLMs in Document Understanding [52.37530640460363]
入力形式が文書理解性能に与える影響について検討する。
生のOCRテキストはMLLMの性能を向上するのではなく、しばしば機能不全であることがわかった。
本稿では,LaTexパラダイムを用いて文書要素を符号化する構造保存手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T07:16:18Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。