論文の概要: THEMIS: Towards Holistic Evaluation of MLLMs for Scientific Paper Fraud Forensics
- arxiv url: http://arxiv.org/abs/2603.25089v1
- Date: Thu, 26 Mar 2026 06:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.142101
- Title: THEMIS: Towards Holistic Evaluation of MLLMs for Scientific Paper Fraud Forensics
- Title(参考訳): TheMIS:Science Paper Fraud ForensicsにおけるMLLMの全体的評価に向けて
- Authors: Tzu-Yen Ma, Bo Zhang, Zichen Tang, Junpeng Ding, Haolin Tian, Yuanze Li, Zhuodi Hao, Zixin Ding, Zirui Wang, Xinyu Yu, Shiyao Peng, Yizhuo Zhao, Ruomeng Jiang, Yiling Huang, Peizhi Zhao, Jiayuan Chen, Weisheng Tan, Haocheng Gao, Yang Liu, Jiacheng Liu, Zhongjun Yang, Jiayu Huang, Haihong E,
- Abstract要約: TheMISは、マルチモーダルな大規模言語モデル(MLLM)を現実のシナリオにおける視覚的不正推論で包括的に評価するために設計された新しいベンチマークである。
60.47%の複雑なテクスチャ画像により、TheMISは既存のベンチマークと現実世界の学術的詐欺の複雑さの間に重要なギャップを埋める。
- 参考スコア(独自算出の注目度): 25.815983678332973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present THEMIS, a novel multi-task benchmark designed to comprehensively evaluate multimodal large language models (MLLMs) on visual fraud reasoning within real-world academic scenarios. Compared to existing benchmarks, THEMIS introduces three major advances. (1) Real-World Scenarios and Complexity: Our benchmark comprises over 4,000 questions spanning seven scenarios, derived from authentic retracted-paper cases and carefully curated multimodal synthetic data. With 60.47% complex-texture images, THEMIS bridges the critical gap between existing benchmarks and the complexity of real-world academic fraud. (2) Fraud-Type Diversity and Granularity: THEMIS systematically covers five challenging fraud types and introduces 16 fine-grained manipulation operations. On average, each sample undergoes multiple stacked manipulation operations, with the diversity and difficulty of these manipulations demanding a high level of visual fraud reasoning from the models. (3) Multi-Dimensional Capability Evaluation: We establish a mapping from fraud types to five core visual fraud reasoning capabilities, thereby enabling an evaluation that reveals the distinct strengths and specific weaknesses of different models across these core capabilities. Experiments on 16 leading MLLMs show that even the best-performing model, GPT-5, achieves an overall performance of only 56.15%, demonstrating that our benchmark presents a stringent test. We expect THEMIS to advance the development of MLLMs for complex, real-world fraud reasoning tasks.
- Abstract(参考訳): 実世界の学術シナリオにおける視覚的不正推論において,MLLM(Multimodal large language model)を包括的に評価するために設計された,新しいマルチタスクベンチマークであるTheMISを提案する。
既存のベンチマークと比較すると、TheMISには3つの大きな進歩がある。
1) 実世界シナリオと複雑性:本ベンチマークは7つのシナリオにまたがる4000以上の質問からなる。
60.47%の複雑なテクスチャ画像により、TheMISは既存のベンチマークと現実世界の学術的詐欺の複雑さの間に重要なギャップを埋める。
2)フルート型多様性と粒度:TheMISは,難解な5種類の詐欺を体系的にカバーし,きめ細かい操作を16回導入する。
平均して、各サンプルは複数の積み重ね操作を行うが、これらの操作の多様性と難しさは、モデルから高いレベルの視覚的不正を要求する。
(3) マルチ次元能力評価: 詐欺型から5つの中心的視覚的詐欺推論能力へのマッピングを確立することにより、これらのコア機能にまたがる異なるモデルの異なる強みと特定の弱点を明らかにする評価を可能にする。
16個のMLLM実験の結果,最高性能モデルであるGPT-5でも56.15%の総合的な性能を達成できた。
我々は,複雑な実世界の不正推論タスクのためのMLLMの開発を進めることを期待する。
関連論文リスト
- MultiHaystack: Benchmarking Multimodal Retrieval and Reasoning over 40K Images, Videos, and Documents [57.32877731797049]
MultiHaystackは、大規模なクロスモーダル条件下での検索と推論の両方を評価するために設計された最初のベンチマークである。
モデルが対応するエビデンスを付与した場合,その性能は,全コーパスからそのエビデンスを取得するために必要な場合,急激に低下することがわかった。
論文 参考訳(メタデータ) (2026-03-05T21:43:02Z) - MAS-ProVe: Understanding the Process Verification of Multi-Agent Systems [59.20800753428596]
マルチエージェントシステム(MAS)におけるプロセス検証の系統的研究であるMAS-ProVeを提案する。
本研究は3つの検証パラダイム(LLM-as-a-Judge、報酬モデル、プロセス報酬モデル)にまたがる。
プロセスレベルの検証は、常に性能を改善しておらず、しばしば高いばらつきを示す。
論文 参考訳(メタデータ) (2026-02-03T03:30:36Z) - Holistic Evaluation of Multimodal LLMs on Spatial Intelligence [81.2547965083228]
空間情報を用いたマルチモーダルLLMの総合評価のためのEASIを提案する。
われわれはこの調査を8つの主要なベンチマークで実施し、総トークン数は100億を超えている。
実験により、GPT-5は空間知能(SI)において前例のない強みを示すが、(2)多種多様なSIタスクにおいて人的性能に欠けることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-18T17:55:17Z) - Can Multi-modal (reasoning) LLMs detect document manipulation? [7.547605888349287]
文書詐欺は、安全で検証可能な文書に依存している産業にとって重大な脅威となる。
本研究では,最先端マルチモーダル言語モデル(LLM)の有効性について検討する。
我々はこれらのモデルを互いに比較し、文書不正検出技術に関する先行研究を行った。
論文 参考訳(メタデータ) (2025-08-14T18:57:07Z) - An Empirical Study on Configuring In-Context Learning Demonstrations for Unleashing MLLMs' Sentimental Perception Capability [20.760483719891887]
ゼロショットのパラダイムをインコンテキストラーニング(ICL)に拡張し、デモの設定に関する詳細な研究を行う。
具体的には、デモの検索、プレゼンテーション、配信をカバーする3つの重要な要因を調査し、最適化する。
MLLMに固有の予測バイアスも発見され、その後効果的に反作用する。
論文 参考訳(メタデータ) (2025-05-22T03:51:41Z) - Why Do Multi-Agent LLM Systems Fail? [87.90075668488434]
MAST-Dataは7つの人気のあるMASフレームワークで収集された1600以上の注釈付きトレースの包括的なデータセットである。
我々はMAST(Multi-Agent System Failure Taxonomy)を初めて構築する。
MASTとMAST-Dataを利用して、モデル(GPT4、Claude 3、Qwen2.5、CodeLlama)とタスク(コーディング、数学、汎用エージェント)の障害パターンを分析します。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリおよびオープンソースMLLMを24件評価した。
MLLMは高いレベルのタスクで優れるが、低レベルの操作に苦戦し、最高のモデルであるGPT-4oは平均28.9%のスコアしか獲得できなかった。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。