論文の概要: MMReview: A Multidisciplinary and Multimodal Benchmark for LLM-Based Peer Review Automation
- arxiv url: http://arxiv.org/abs/2508.14146v1
- Date: Tue, 19 Aug 2025 16:37:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.229675
- Title: MMReview: A Multidisciplinary and Multimodal Benchmark for LLM-Based Peer Review Automation
- Title(参考訳): MMReview: LLMに基づくピアレビュー自動化のためのマルチディシプリナとマルチモーダルベンチマーク
- Authors: Xian Gao, Jiacheng Ruan, Zongyun Zhang, Jingsheng Gao, Ting Liu, Yuzhuo Fu,
- Abstract要約: 大きな言語モデル(LLM)は、レビューコメントの生成を支援するために、ますます採用されている。
現在のLLMベースのレビュータスクは、包括的な、正確で、人間に沿ったアセスメントを生成するモデルの能力を厳格に評価するための統一された評価ベンチマークを欠いている。
我々は、複数の分野とモダリティにまたがる包括的なベンチマークである textbfMMReview を提案する。
- 参考スコア(独自算出の注目度): 24.566487721847597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid growth of academic publications, peer review has become an essential yet time-consuming responsibility within the research community. Large Language Models (LLMs) have increasingly been adopted to assist in the generation of review comments; however, current LLM-based review tasks lack a unified evaluation benchmark to rigorously assess the models' ability to produce comprehensive, accurate, and human-aligned assessments, particularly in scenarios involving multimodal content such as figures and tables. To address this gap, we propose \textbf{MMReview}, a comprehensive benchmark that spans multiple disciplines and modalities. MMReview includes multimodal content and expert-written review comments for 240 papers across 17 research domains within four major academic disciplines: Artificial Intelligence, Natural Sciences, Engineering Sciences, and Social Sciences. We design a total of 13 tasks grouped into four core categories, aimed at evaluating the performance of LLMs and Multimodal LLMs (MLLMs) in step-wise review generation, outcome formulation, alignment with human preferences, and robustness to adversarial input manipulation. Extensive experiments conducted on 16 open-source models and 5 advanced closed-source models demonstrate the thoroughness of the benchmark. We envision MMReview as a critical step toward establishing a standardized foundation for the development of automated peer review systems.
- Abstract(参考訳): 学術出版物の急激な成長に伴い、査読は研究コミュニティにおいて不可欠だが時間を要する責任となっている。
大規模な言語モデル(LLM)は、レビューコメントの生成を支援するためにますます採用されているが、現在のLLMベースのレビュータスクでは、特に数字や表のようなマルチモーダルコンテンツを含むシナリオにおいて、モデルが包括的で正確で、人間に沿ったアセスメントを生成する能力を厳格に評価するための統一的な評価ベンチマークが欠如している。
このギャップに対処するために、複数の分野とモダリティにまたがる包括的なベンチマークである \textbf{MMReview} を提案する。
MMReviewには、人工知能、自然科学、工学、社会科学という4つの主要な学術分野の17の分野にわたる240の論文に対する、マルチモーダルコンテンツと専門家によるレビューコメントが含まれている。
ステップワイズレビュー生成,結果の定式化,人間の嗜好との整合,対向的な入力操作に対する堅牢性などにおいて,LLMとMLLMのパフォーマンスを評価することを目的とした,合計13のタスクを4つの中核カテゴリに分けて設計する。
16のオープンソースモデルと5つの高度なクローズドソースモデルで実施された大規模な実験は、ベンチマークの徹底性を実証している。
我々は、自動ピアレビューシステム開発のための標準化された基盤を確立するための重要なステップとしてMMReviewを構想する。
関連論文リスト
- LiveIdeaBench: Evaluating LLMs' Divergent Thinking for Scientific Idea Generation with Minimal Context [13.967898012303325]
我々は,Large Language Modelsの科学的アイデア生成を評価するベンチマークであるLiveIdeaBenchを紹介する。
我々のベンチマークでは、最先端のLCMのダイナミックパネルを用いて、創発性、実現性、流布性、柔軟性、明快さの5つの重要な側面で生成されたアイデアを評価する。
我々の結果は、QwQ-32B-previewのようなモデルが、一般的な知能スコアに大きな差があるにもかかわらず、claude-3.7-sonnet:thinkingのような上位モデルのモデルに匹敵する創造的なパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-12-23T14:13:44Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。