論文の概要: Can Multi-modal (reasoning) LLMs detect document manipulation?
- arxiv url: http://arxiv.org/abs/2508.11021v1
- Date: Thu, 14 Aug 2025 18:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.64794
- Title: Can Multi-modal (reasoning) LLMs detect document manipulation?
- Title(参考訳): マルチモーダル (推論) LLM は文書操作を検出できるか?
- Authors: Zisheng Liang, Kidus Zewde, Rudra Pratap Singh, Disha Patil, Zexi Chen, Jiayu Xue, Yao Yao, Yifei Chen, Qinzhe Liu, Simiao Ren,
- Abstract要約: 文書詐欺は、安全で検証可能な文書に依存している産業にとって重大な脅威となる。
本研究では,最先端マルチモーダル言語モデル(LLM)の有効性について検討する。
我々はこれらのモデルを互いに比較し、文書不正検出技術に関する先行研究を行った。
- 参考スコア(独自算出の注目度): 7.547605888349287
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Document fraud poses a significant threat to industries reliant on secure and verifiable documentation, necessitating robust detection mechanisms. This study investigates the efficacy of state-of-the-art multi-modal large language models (LLMs)-including OpenAI O1, OpenAI 4o, Gemini Flash (thinking), Deepseek Janus, Grok, Llama 3.2 and 4, Qwen 2 and 2.5 VL, Mistral Pixtral, and Claude 3.5 and 3.7 Sonnet-in detecting fraudulent documents. We benchmark these models against each other and prior work on document fraud detection techniques using a standard dataset with real transactional documents. Through prompt optimization and detailed analysis of the models' reasoning processes, we evaluate their ability to identify subtle indicators of fraud, such as tampered text, misaligned formatting, and inconsistent transactional sums. Our results reveal that top-performing multi-modal LLMs demonstrate superior zero-shot generalization, outperforming conventional methods on out-of-distribution datasets, while several vision LLMs exhibit inconsistent or subpar performance. Notably, model size and advanced reasoning capabilities show limited correlation with detection accuracy, suggesting task-specific fine-tuning is critical. This study underscores the potential of multi-modal LLMs in enhancing document fraud detection systems and provides a foundation for future research into interpretable and scalable fraud mitigation strategies.
- Abstract(参考訳): 文書不正は、安全で検証可能なドキュメントに依存し、堅牢な検出メカニズムを必要とする産業にとって重大な脅威となる。
本研究は,OpenAI O1, OpenAI 4o, Gemini Flash (考える), Deepseek Janus, Grok, Llama 3.2 and 4, Qwen 2 and 2.5 VL, Mistral Pixtral, Claude 3.5 and 3.7 Sonnet-in による不正文書の検出を含む,最先端のマルチモーダル言語モデル (LLM) の有効性について検討した。
我々は、これらのモデルを互いに比較してベンチマークし、実際のトランザクション文書を用いた標準データセットを用いた文書不正検出手法に関する先行研究を行った。
モデルの推論プロセスの迅速な最適化と詳細な解析により,不正なテキスト,不整合フォーマット,不整合トランザクション和など,不正行為の微妙な指標を識別する能力を評価する。
以上の結果から,トップパフォーマンスのマルチモーダル LLM はゼロショットの一般化に優れており,従来のアウト・オブ・ディストリビューション・データセットの手法よりも優れており,いくつかのビジョン LLM では不整合性やサブパー性能を示すことがわかった。
特に、モデルサイズと高度な推論能力は、検出精度と限定的な相関を示し、タスク固有の微調整が重要であることを示唆している。
本研究は,文書不正検出システムの強化におけるマルチモーダル LLM の可能性を明らかにし,解釈可能かつスケーラブルな不正対策戦略に関する今後の研究の基盤を提供する。
関連論文リスト
- Can Multi-modal (reasoning) LLMs work as deepfake detectors? [6.36797761822772]
我々は、複数のデータセットにわたる従来のディープフェイク検出手法に対して、最新の12のマルチモーダルLCMをベンチマークする。
以上の結果から,最高のマルチモーダルLCMはゼロショットで有望な一般化能力を持つ競争性能を達成できることが示唆された。
本研究では,将来のディープフェイク検出フレームワークにマルチモーダル推論を統合する可能性を強調した。
論文 参考訳(メタデータ) (2025-03-25T21:47:29Z) - MOSAIC: Multiple Observers Spotting AI Content [35.67613230687864]
大規模言語モデル(LLM)は大規模に訓練され、強力なテキスト生成能力を備えている。
本研究では,人文テキストから人工的に生成したテキストを自動的に識別する手法を提案する。
種々のジェネレータLSMを用いて実験を行った結果,本手法は各モデルの強度を効果的に活用できることが示唆された。
論文 参考訳(メタデータ) (2024-09-11T20:55:12Z) - Multimodal Misinformation Detection using Large Vision-Language Models [7.505532091249881]
大規模言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示している。
誤情報検出の一部として証拠検索を考えるアプローチはほとんどない。
マルチモーダルエビデンス検索のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-19T13:57:11Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Robustness of Structured Data Extraction from In-plane Rotated Documents using Multi-Modal Large Language Models (LLM) [0.0]
本研究では,文書スキューが3つの最先端マルチモーダルモデルのデータの抽出精度に与える影響について検討した。
モデル毎に安全な面内回転角(SIPRA)を同定し,スキューがモデル幻覚に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2024-06-13T08:55:01Z) - Multimodal Large Language Models to Support Real-World Fact-Checking [80.41047725487645]
MLLM(Multimodal large language model)は、膨大な情報処理において人間を支援する能力を持つ。
MLLMはすでにファクトチェックツールとして使用されていますが、その能力や制限については検討中です。
本稿では,現実のファクトチェックを容易にするために,現在のマルチモーダルモデルの能力を体系的に評価するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-06T11:32:41Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - MGTBench: Benchmarking Machine-Generated Text Detection [54.81446366272403]
本稿では,強力な大規模言語モデル(LLM)に対するMGT検出のための最初のベンチマークフレームワークを提案する。
一般に単語が多ければ多いほど性能が向上し,ほとんどの検出手法はトレーニングサンプルをはるかに少なくして同様の性能が得られることを示す。
本研究は, テキスト属性タスクにおいて, モデルに基づく検出手法が依然として有効であることを示す。
論文 参考訳(メタデータ) (2023-03-26T21:12:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。