論文の概要: PathMMU: A Massive Multimodal Expert-Level Benchmark for Understanding and Reasoning in Pathology
- arxiv url: http://arxiv.org/abs/2401.16355v3
- Date: Wed, 20 Mar 2024 17:13:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 21:48:20.114537
- Title: PathMMU: A Massive Multimodal Expert-Level Benchmark for Understanding and Reasoning in Pathology
- Title(参考訳): PathMMU: 病理の理解と推論のための大規模マルチモーダルエキスパートレベルベンチマーク
- Authors: Yuxuan Sun, Hao Wu, Chenglu Zhu, Sunyi Zheng, Qizi Chen, Kai Zhang, Yunlong Zhang, Dan Wan, Xiaoxiao Lan, Mengyue Zheng, Jingxiong Li, Xinheng Lyu, Tao Lin, Lin Yang,
- Abstract要約: 大規模マルチモーダルモデル(LMM)のための,最大かつ高品質なエキスパート検証型病理診断ベンチマークPathMMUを紹介する。
様々なソースから33,428のマルチモーダルなマルチチョイス質問と24,067のイメージで構成され、それぞれに正しい回答の説明が添えられている。
PathMMUの構築はGPT-4Vの高度な機能を活用し、3万以上の画像キャプチャペアを使用してキャプションを強化し、対応するQ&Aを生成する。
- 参考スコア(独自算出の注目度): 14.944207181507135
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The emergence of large multimodal models has unlocked remarkable potential in AI, particularly in pathology. However, the lack of specialized, high-quality benchmark impeded their development and precise evaluation. To address this, we introduce PathMMU, the largest and highest-quality expert-validated pathology benchmark for Large Multimodal Models (LMMs). It comprises 33,428 multimodal multi-choice questions and 24,067 images from various sources, each accompanied by an explanation for the correct answer. The construction of PathMMU harnesses GPT-4V's advanced capabilities, utilizing over 30,000 image-caption pairs to enrich captions and generate corresponding Q&As in a cascading process. Significantly, to maximize PathMMU's authority, we invite seven pathologists to scrutinize each question under strict standards in PathMMU's validation and test sets, while simultaneously setting an expert-level performance benchmark for PathMMU. We conduct extensive evaluations, including zero-shot assessments of 14 open-sourced and 4 closed-sourced LMMs and their robustness to image corruption. We also fine-tune representative LMMs to assess their adaptability to PathMMU. The empirical findings indicate that advanced LMMs struggle with the challenging PathMMU benchmark, with the top-performing LMM, GPT-4V, achieving only a 49.8% zero-shot performance, significantly lower than the 71.8% demonstrated by human pathologists. After fine-tuning, significantly smaller open-sourced LMMs can outperform GPT-4V but still fall short of the expertise shown by pathologists. We hope that the PathMMU will offer valuable insights and foster the development of more specialized, next-generation LMMs for pathology.
- Abstract(参考訳): 大規模なマルチモーダルモデルの出現は、AI、特に病理学において顕著な可能性を解き放っている。
しかし、専門的で高品質なベンチマークが欠如していることは、その開発と正確な評価を妨げた。
そこで我々は,LMM(Large Multimodal Models)のための,最大かつ高品質なエキスパート検証型病理診断ベンチマークPathMMUを紹介する。
様々なソースから33,428のマルチモーダルなマルチチョイス質問と24,067のイメージで構成され、それぞれに正しい回答の説明が添えられている。
PathMMUの構築はGPT-4Vの高度な機能を活用し、3万以上の画像キャプチャペアを使用してキャプションを強化し、カスケードプロセスで対応するQ&Aを生成する。
PathMMUの権威を最大限にするために、我々は7人の病理学者にPathMMUの検証とテストセットの厳格な基準の下で各質問を精査し、同時にPathMMUのエキスパートレベルのパフォーマンスベンチマークを設定します。
14のオープンソースと4のクローズドソースのLMMのゼロショット評価や,画像の破損に対する堅牢性など,幅広い評価を行っている。
また、PathMMUへの適応性を評価するために、代表LMMを微調整する。
実験の結果、先進的なLMMは挑戦的なPathMMUベンチマークに苦戦し、トップパフォーマンスのLMMであるGPT-4Vは、わずか49.8%のゼロショットのパフォーマンスしか達成せず、ヒトの病理学者による71.8%よりも大幅に低い結果となった。
微調整の後、かなり小さなオープンソースLMMはGPT-4Vより優れているが、病理学者が示した専門知識には劣っている。
私たちは、PathMMUが貴重な洞察を提供し、より専門的で次世代のLMMの開発を促進することを期待しています。
関連論文リスト
- CAMEL-Bench: A Comprehensive Arabic LMM Benchmark [10.20074702234283]
我々は,4億人以上の話者を対象とするアラビア語の総合的LMM評価ベンチマークを開発した。
提案するベンチマークは,マルチイメージ理解,複雑な視覚知覚,手書き文書理解,ビデオ理解,医用画像,植物病,リモートセンシングによる土地利用理解を含む8つのサブドメインと38のサブドメインから構成される。
論文 参考訳(メタデータ) (2024-10-24T17:59:38Z) - The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。
本研究は,幻覚に対する2つの重要な要因を明らかにした。
私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文 参考訳(メタデータ) (2024-10-16T17:59:02Z) - MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark [77.93283927871758]
本稿では,Multi-discipline Multi-modal Understanding and Reasoningベンチマークの頑健なバージョンであるMMMU-Proを紹介する。
MMMU-Proは、マルチモーダルモデルの真の理解と推論能力を厳格に評価する。
論文 参考訳(メタデータ) (2024-09-04T15:31:26Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - GAOKAO-MM: A Chinese Human-Level Benchmark for Multimodal Models Evaluation [55.2480439325792]
LVLM(Large Vision-Language Models)は画像認識と言語理解に優れた能力を示す。
中国大学入学試験(GAokao-MM)に基づくマルチモーダルベンチマークであるGAokao-MMを提案する。
GPT-4-Vison(48.1%)、Qwen-VL-Plus(41.2%)、Gemini-Pro-Vision(35.1%)が上位3位である。
論文 参考訳(メタデータ) (2024-02-24T06:57:15Z) - CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark [53.24896036161829]
大学レベルの教科知識と意図的推論を必要とするタスクにおいて,LMMを評価するために設計された,中国の大規模多分野マルチモーダル理解ベンチマークを導入する。
CMMMUは、大学試験、クイズ、教科書から12kの質問を手作業で収集し、アート・アンド・デザイン、ビジネス、サイエンス、ヘルス・アンド・メディカル、ヒューマニティ・アンド・ソーシャル・サイエンス、テック・アンド・エンジニアリングの6つの中核分野をカバーしている。
CMMMUは、中国語の文脈における複雑な認識とドメイン固有の知識による推論に焦点を当てている。
論文 参考訳(メタデータ) (2024-01-22T13:34:34Z) - MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI [64.21953221846596]
MMMUは、大規模多分野タスクにおけるマルチモーダルモデルを評価するために設計された新しいベンチマークである。
被験者は30名、サブフィールドは183名、画像タイプは30名である。
14のオープンソースLMMとプロプライエタリなGPT-4V(ision)とGeminiの評価は、MMMUがもたらす重大な課題を強調している。
論文 参考訳(メタデータ) (2023-11-27T17:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。