論文の概要: Not Search, But Scan: Benchmarking MLLMs on Scan-Oriented Academic Paper Reasoning
- arxiv url: http://arxiv.org/abs/2603.28651v1
- Date: Fri, 27 Mar 2026 15:58:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.511495
- Title: Not Search, But Scan: Benchmarking MLLMs on Scan-Oriented Academic Paper Reasoning
- Title(参考訳): 検索ではなくスキャン: スキャン指向の学術論文推論におけるMLLMのベンチマーク
- Authors: Rongjin Li, Zichen Tang, Xianghe Wang, Xinyi Hu, Zhengyu Wang, Zhengyu Lu, Yiling Huang, Jiayuan Chen, Weisheng Tan, Jiacheng Liu, Zhongjun Yang, Haihong E,
- Abstract要約: ScholScanは学術論文推論の新しいベンチマークである。
それは、人間の研究者のような論文全体を読み、クロスチェックし、文書をスキャンして一貫性の問題を特定するよう、モデルに求める。
このベンチマークは、13の自然科学領域と715の論文の9つのエラーカテゴリから抽出された1,800の注意深い注釈付き質問で構成されている。
- 参考スコア(独自算出の注目度): 16.63278420905483
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid progress of multimodal large language models (MLLMs), AI already performs well at literature retrieval and certain reasoning tasks, serving as a capable assistant to human researchers, yet it remains far from autonomous research. The fundamental reason is that current work on academic paper reasoning is largely confined to a search-oriented paradigm centered on pre-specified targets, with reasoning grounded in relevance retrieval, which struggles to support researcher-style full-document understanding, reasoning, and verification. To bridge this gap, we propose \textbf{ScholScan}, a new benchmark for academic paper reasoning. ScholScan introduces a scan-oriented task setting that asks models to read and cross-check entire papers like human researchers, scanning the document to identify consistency issues. The benchmark comprises 1,800 carefully annotated questions drawn from nine error categories across 13 natural-science domains and 715 papers, and provides detailed annotations for evidence localization and reasoning traces, together with a unified evaluation protocol. We assessed 15 models across 24 input configurations and conducted a fine-grained analysis of MLLM capabilities for all error categories. Across the board, retrieval-augmented generation (RAG) methods yield no significant improvements, revealing systematic deficiencies of current MLLMs on scan-oriented tasks and underscoring the challenge posed by ScholScan. We expect ScholScan to be the leading and representative work of the scan-oriented task paradigm.
- Abstract(参考訳): MLLM(Multimodal large language model)の急速な進歩により、AIは文学検索や特定の推論タスクにおいて、人間の研究者の有能なアシスタントとして、すでにうまく機能しているが、自律的な研究には程遠い。
根本的な理由は、学術論文の推論に関する現在の研究は、主に、研究者スタイルのフルドキュメント理解、推論、検証を支援するのに苦慮している関連性検索に基礎を置いている、特定の対象に焦点を絞った検索指向のパラダイムに限られているためである。
このギャップを埋めるために、学術論文推論の新しいベンチマークである「textbf{ScholScan}」を提案する。
ScholScanはスキャン指向のタスク設定を導入し、モデルに人間の研究者のような論文全体を読み、クロスチェックするよう求め、ドキュメントをスキャンして一貫性の問題を特定する。
このベンチマークは、13の自然科学領域と715の論文の9つのエラーカテゴリから抽出された1,800の注意深い注釈付き質問と、証拠のローカライゼーションと推論トレースに関する詳細なアノテーションと、統一された評価プロトコルから構成されている。
入力構成を24種類に分けて15モデルを評価し,全てのエラーカテゴリに対するMLLM機能を詳細に解析した。
ボード全体では、検索強化世代(RAG)法は、スキャン指向のタスクに対する現在のMLLMの体系的な欠陥を明らかにし、ScholScanによる課題を裏付けるなど、大幅な改善は得られない。
ScholScanがスキャン指向タスクパラダイムの先駆的で代表的な作業になることを期待しています。
関連論文リスト
- PaperSearchQA: Learning to Search and Reason over Scientific Papers with RLVR [64.22412492998754]
我々は,1600万件のバイオメディカルペーパーを要約した検索コーパスを公開し,PaperSearchQAと呼ばれるファクトイックなQAデータセットを構築した。
我々は,この環境における検索エージェントを訓練し,非RL検索ベースラインを上回ります。
我々のデータ生成方法はスケーラブルで、他の科学領域にも容易に拡張できます。
論文 参考訳(メタデータ) (2026-01-26T06:46:16Z) - RPC-Bench: A Fine-grained Benchmark for Research Paper Comprehension [65.81339691942757]
RPC-Bench(RPC-Bench)は、高品質なコンピュータサイエンス論文のレビュー・リビューの交換から構築された大規模質問応答ベンチマークである。
我々は、科学研究の流れに沿ったきめ細かい分類を設計し、モデルがなぜ、何、どのように学術的な文脈で質問するかを理解し、答える能力を評価する。
論文 参考訳(メタデータ) (2026-01-14T11:37:00Z) - ELAIPBench: A Benchmark for Expert-Level Artificial Intelligence Paper Understanding [49.67493845115009]
ELAIPBenchは、大規模言語モデルによるAI研究論文の理解を評価するために、ドメインの専門家によってキュレーションされたベンチマークである。
難易度は3つあり、浅い検索よりも非自明な推論に重点を置いている。
実験の結果、最高の性能のLSMは、人間の性能よりはるかに低い39.95%の精度しか達成できないことがわかった。
論文 参考訳(メタデータ) (2025-10-12T11:11:20Z) - Let's Use ChatGPT To Write Our Paper! Benchmarking LLMs To Write the Introduction of a Research Paper [64.50822834679101]
SciIGは、タイトル、抽象、および関連する作品からコヒーレントな紹介を生成するLLMの能力を評価するタスクである。
オープンソース (DeepSeek-v3, Gemma-3-12B, LLaMA 4-Maverick, MistralAI Small 3.1) およびクローズドソース GPT-4o システムを含む5つの最先端モデルを評価する。
結果は、特に意味的類似性と忠実性において、ほとんどのメトリクスにおいて、LLaMA-4 Maverickの優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-08-19T21:11:11Z) - Structured Attention Matters to Multimodal LLMs in Document Understanding [52.37530640460363]
入力形式が文書理解性能に与える影響について検討する。
生のOCRテキストはMLLMの性能を向上するのではなく、しばしば機能不全であることがわかった。
本稿では,LaTexパラダイムを用いて文書要素を符号化する構造保存手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T07:16:18Z) - SciSage: A Multi-Agent Framework for High-Quality Scientific Survey Generation [2.985620880452744]
SciSageはリフレクション・ワン・ユー・ライト・パラダイムを使ったマルチエージェント・フレームワークである。
アウトライン、セクション、ドキュメントレベルでのドラフトを批判的に評価し、クエリの解釈、コンテンツ検索、洗練のための特別なエージェントと協調する。
また、11のコンピュータサイエンス領域にわたる46のハイインパクト論文(2020-2025)のベンチマークであるSurveyScopeをリリースしています。
論文 参考訳(メタデータ) (2025-06-15T02:23:47Z) - RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance [0.8089605035945486]
本稿では,調査論文レビューの課題を分類問題として概念化するシステムであるRelevAI-Reviewerを提案する。
25,164のインスタンスからなる新しいデータセットを導入する。各インスタンスには1つのプロンプトと4つの候補論文があり、それぞれがプロンプトに関連している。
我々は,各論文の関連性を判断し,最も関連性の高い論文を識別できる機械学習(ML)モデルを開発した。
論文 参考訳(メタデータ) (2024-06-13T06:42:32Z) - ResearchArena: Benchmarking Large Language Models' Ability to Collect and Organize Information as Research Agents [30.603079363363634]
本研究では,学術調査における大規模言語モデルの能力を評価するためのベンチマークであるResearchArenaを紹介する。
ResearchArenaは,(1)情報発見,関連文献の同定,(2)情報選択,論文の関連性および影響評価,(3)情報組織という3段階のプロセスのモデル化を行う。
これらの評価を支援するために,12Mのフルテキスト学術論文と7.9Kの調査論文のオフライン環境を構築した。
論文 参考訳(メタデータ) (2024-06-13T03:26:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。