論文の概要: GPT4o-Receipt: A Dataset and Human Study for AI-Generated Document Forensics
- arxiv url: http://arxiv.org/abs/2603.11442v1
- Date: Thu, 12 Mar 2026 02:05:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.814119
- Title: GPT4o-Receipt: A Dataset and Human Study for AI-Generated Document Forensics
- Title(参考訳): GPT4o-Receipt:AI生成文書鑑定のためのデータセットと人間の研究
- Authors: Yan Zhang, Simiao Ren, Ankit Raj, En Wei, Dennis Ng, Alex Shen, Jiayue Xu, Yuxin Zhang, Evelyn Marotta,
- Abstract要約: GPT4o-Receiptは、GPT-4o生成レシートと、確立したデータセットからの認証レシートをペアリングした1,235レシート画像のベンチマークである。
人間のアノテータは評価器の最大の視覚的識別ギャップを示すが、バイナリ検出F1はClaude Sonnet 4より低く、Gemini 2.5 Flashより下にある。
5モデル評価では, 測定精度が不十分で検出精度が低い, 劇的な性能差とキャリブレーション差がみられた。
- 参考スコア(独自算出の注目度): 12.448893104517808
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Can humans detect AI-generated financial documents better than machines? We present GPT4o-Receipt, a benchmark of 1,235 receipt images pairing GPT-4o-generated receipts with authentic ones from established datasets, evaluated by five state-of-the-art multimodal LLMs and a 30-annotator crowdsourced perceptual study. Our findings reveal a striking paradox: humans are better at seeing AI artifacts, yet worse at detecting AI documents. Human annotators exhibit the largest visual discrimination gap of any evaluator, yet their binary detection F1 falls well below Claude Sonnet 4 and below Gemini 2.5 Flash. This paradox resolves once the mechanism is understood: the dominant forensic signals in AI-generated receipts are arithmetic errors -- invisible to visual inspection but systematically verifiable by LLMs. Humans cannot perceive that a subtotal is incorrect; LLMs verify it in milliseconds. Beyond the human--LLM comparison, our five-model evaluation reveals dramatic performance disparities and calibration differences that render simple accuracy metrics insufficient for detector selection. GPT4o-Receipt, the evaluation framework, and all results are released publicly to support future research in AI document forensics.
- Abstract(参考訳): 人間は機械よりもAI生成の財務文書を検出できるのか?
GPT4o-Receiptは、GPT-4o生成レシートと、既存のデータセットから生成した認証レシートをペアリングした1,235のレシート画像のベンチマークであり、5つの最先端マルチモーダルLCMと30のアノテータのクラウドソースによる知覚研究によって評価されている。
人間はAIのアーティファクトを見るのが得意ですが、AI文書を検出するのが得意です。
人間のアノテータは評価器の最大の視覚的識別ギャップを示すが、バイナリ検出F1はClaude Sonnet 4より低く、Gemini 2.5 Flashより下にある。
このパラドックスは、ひとたびメカニズムが理解されれば解決する:AI生成レシートにおける支配的な法医学的信号は算術的な誤りであり、視覚的検査には見えないが、LLMによって体系的に検証可能である。人間は、サブトータルが間違っていることを認識できない。LLMはミリ秒でそれを検証する。人間-LLM比較以外にも、我々の5モデル評価は、劇的なパフォーマンス格差とキャリブレーションの違いを示し、検出器選択に不十分な単純な精度のメトリクスをレンダリングする。
GPT4o-Receipt、評価フレームワーク、およびすべての結果が公開され、AIドキュメントの法医学における将来の研究をサポートする。
関連論文リスト
- AIForge-Doc: A Benchmark for Detecting AI-Forged Tampering in Financial and Form Documents [7.014776899553499]
我々は,ファイナンシャルおよびフォーム文書にピクセルレベルのアノテーションを付加した拡散モデルベースの塗り絵のみを対象とする,最初の専用ベンチマークであるAIForge-Docを紹介する。
TruFor、DocTamper、ゼロショットGPT-4oの3つの代表検出器をベンチマークした結果、既存のメソッドはすべて大幅に劣化していることがわかった。
論文 参考訳(メタデータ) (2026-02-24T05:37:35Z) - Fact or Fake? Assessing the Role of Deepfake Detectors in Multimodal Misinformation Detection [24.64785245180038]
我々は,マルチモーダルな誤情報検出の文脈において,ディープフェイク検出を初めて体系的に解析する。
ディープフェイク検出器は、MMFakeBenchで0.26-0.53、DGM4で0.33-0.49の範囲でF1スコアを達成している。
証拠中心のファクトチェックシステムは最高性能を達成し、MMFakeBenchで約0.81点、DGM4で約0.55点に達した。
論文 参考訳(メタデータ) (2026-02-02T09:28:16Z) - Can AI Recognize Its Own Reflection? Self-Detection Performance of LLMs in Computing Education [0.10195618602298682]
本稿では、AI生成したテキストをコンピュータ固有の文脈で識別する3つの顕著な大規模言語モデルの能力を評価する。
モデルに検出を回避するよう指示された,標準条件と「欺く」プロンプト条件の両方で,それらの性能をテストした。
デフォルトのAI生成テキストは容易に識別できたが、すべてのモデルは、人間の書いた作品を正しく分類するのに苦労した。
論文 参考訳(メタデータ) (2025-12-29T16:35:52Z) - Skyra: AI-Generated Video Detection via Grounded Artifact Reasoning [66.51617619673587]
AI生成ビデオにおける人間の知覚可能な視覚的アーティファクトを識別する,特殊な大規模言語モデル(MLLM)であるSkyraを紹介する。
この目的を達成するために、我々は、人間のアノテーションを微粒化した最初の大規模AI生成ビデオデータセットである、Supervised Fine-Tuning (SFT)のためのViF-CoT-4Kを構築した。
次に,モデルの時間的知覚,説明能力,検出精度を体系的に向上する2段階のトレーニング戦略を開発する。
論文 参考訳(メタデータ) (2025-12-17T18:48:26Z) - Mind Reading or Misreading? LLMs on the Big Five Personality Test [1.3649494534428745]
本研究では,2進5因子モデル (BIG5) に基づくテキストから人格自動予測のための大規模言語モデル (LLM) を評価する。
オープンソースモデルは時々 GPT-4 や以前のベンチマークにアプローチするが、ゼロショットバイナリ設定で一貫した信頼性のある予測は得られない。
これらの結果から, 現状のLCMはAPPTにはまだ適していないこと, 迅速な設計, 特性フレーミング, 評価指標の慎重な調整が, 解釈可能な結果に不可欠であることが示唆された。
論文 参考訳(メタデータ) (2025-11-28T11:40:30Z) - Can Multi-modal (reasoning) LLMs detect document manipulation? [7.547605888349287]
文書詐欺は、安全で検証可能な文書に依存している産業にとって重大な脅威となる。
本研究では,最先端マルチモーダル言語モデル(LLM)の有効性について検討する。
我々はこれらのモデルを互いに比較し、文書不正検出技術に関する先行研究を行った。
論文 参考訳(メタデータ) (2025-08-14T18:57:07Z) - Could AI Trace and Explain the Origins of AI-Generated Images and Text? [53.11173194293537]
AI生成コンテンツは、現実の世界ではますます普及している。
敵は、大規模なマルチモーダルモデルを利用して、倫理的または法的基準に違反した画像を作成するかもしれない。
ペーパーレビュアーは、大きな言語モデルを誤用して、真の知的努力なしにレビューを生成する。
論文 参考訳(メタデータ) (2025-04-05T20:51:54Z) - Group-Adaptive Threshold Optimization for Robust AI-Generated Text Detection [58.419940585826744]
本稿では,確率的AIテキスト検出のためのグループ固有しきい値最適化アルゴリズムであるFairOPTを紹介する。
属性(例えば、テキストの長さと書き込みスタイル)に基づいてデータをサブグループに分割し、FairOPTを実装して、各グループに対する決定しきい値の学習を行い、不一致を低減しました。
我々のフレームワークは、後処理によるAI生成コンテンツ検出において、より堅牢な分類の道を開く。
論文 参考訳(メタデータ) (2025-02-06T21:58:48Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。