論文の概要: PathMMU: A Massive Multimodal Expert-Level Benchmark for Understanding
and Reasoning in Pathology
- arxiv url: http://arxiv.org/abs/2401.16355v1
- Date: Mon, 29 Jan 2024 17:59:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 13:55:50.624353
- Title: PathMMU: A Massive Multimodal Expert-Level Benchmark for Understanding
and Reasoning in Pathology
- Title(参考訳): PathMMU: 病理の理解と推論のための大規模マルチモーダルエキスパートレベルベンチマーク
- Authors: Yuxuan Sun, Hao Wu, Chenglu Zhu, Sunyi Zheng, Qizi Chen, Kai Zhang,
Yunlong Zhang, Xiaoxiao Lan, Mengyue Zheng, Jingxiong Li, Xinheng Lyu, Tao
Lin, Lin Yang
- Abstract要約: 本稿は,LMMのための最大かつ高品質なエキスパート検証型病理診断ベンチマークであるPathMMUを紹介する。
様々なソースから33,573のマルチモーダルなマルチチョイス質問と21,599の画像で構成されている。
PathMMUはGPT-4Vのロバストな能力を生かし、約30,000枚の画像キャプチャーペアを使用してQ&Aを生成する。
- 参考スコア(独自算出の注目度): 15.652282366564803
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The emergence of large multimodal models has unlocked remarkable potential in
AI, particularly in pathology. However, the lack of specialized, high-quality
benchmark impeded their development and precise evaluation. To address this, we
introduce PathMMU, the largest and highest-quality expert-validated pathology
benchmark for LMMs. It comprises 33,573 multimodal multi-choice questions and
21,599 images from various sources, and an explanation for the correct answer
accompanies each question. The construction of PathMMU capitalizes on the
robust capabilities of GPT-4V, utilizing approximately 30,000 gathered
image-caption pairs to generate Q\&As. Significantly, to maximize PathMMU's
authority, we invite six pathologists to scrutinize each question under strict
standards in PathMMU's validation and test sets, while simultaneously setting
an expert-level performance benchmark for PathMMU. We conduct extensive
evaluations, including zero-shot assessments of 14 open-sourced and three
closed-sourced LMMs and their robustness to image corruption. We also fine-tune
representative LMMs to assess their adaptability to PathMMU. The empirical
findings indicate that advanced LMMs struggle with the challenging PathMMU
benchmark, with the top-performing LMM, GPT-4V, achieving only a 51.7\%
zero-shot performance, significantly lower than the 71.4\% demonstrated by
human pathologists. After fine-tuning, even open-sourced LMMs can surpass
GPT-4V with a performance of over 60\%, but still fall short of the expertise
shown by pathologists. We hope that the PathMMU will offer valuable insights
and foster the development of more specialized, next-generation LLMs for
pathology.
- Abstract(参考訳): 大規模なマルチモーダルモデルの出現は、AI、特に病理学において顕著な可能性を解き放っている。
しかし、専門的で高品質なベンチマークの欠如は、彼らの開発と正確な評価を妨げた。
そこで我々は,LMMのための最大かつ高品質な専門家評価型病理診断ベンチマークPathMMUを紹介する。
33,573個のマルチモーダル・マルチチョイス問題と21,599枚の画像からなり、各質問に合致する正しい回答の説明がある。
PathMMUの構築はGPT-4Vのロバストな能力を生かし、約30,000枚の画像キャプチャーペアを使用してQ\&Aを生成する。
ここでは,PathMMUの権威を最大化するために,PathMMUの検証とテストセットの厳格な基準の下で各質問を精査し,同時にPathMMUのエキスパートレベルのパフォーマンスベンチマークを設定する。
我々は,14のオープンソースおよび3つのクローズドソースlmmのゼロショット評価,画像腐敗に対するロバスト性など,広範な評価を行う。
また、PathMMUへの適応性を評価するために、代表LMMを微調整する。
実験の結果、先進的なLMMは挑戦的なPathMMUベンチマークに苦戦し、トップパフォーマンスのLMMであるGPT-4Vは51.7%のゼロショットのパフォーマンスしか達成せず、ヒトの病理学者が示した71.4倍よりも大幅に低かった。
微調整の後、オープンソースのLMMでさえ60\%以上のパフォーマンスでGPT-4Vを超えることができるが、いまだに病理学者が示した専門知識に欠けている。
PathMMUが貴重な洞察を提供し、より専門的で次世代のLLMの開発を促進することを期待しています。
関連論文リスト
- CAMEL-Bench: A Comprehensive Arabic LMM Benchmark [10.20074702234283]
我々は,4億人以上の話者を対象とするアラビア語の総合的LMM評価ベンチマークを開発した。
提案するベンチマークは,マルチイメージ理解,複雑な視覚知覚,手書き文書理解,ビデオ理解,医用画像,植物病,リモートセンシングによる土地利用理解を含む8つのサブドメインと38のサブドメインから構成される。
論文 参考訳(メタデータ) (2024-10-24T17:59:38Z) - The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。
本研究は,幻覚に対する2つの重要な要因を明らかにした。
私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文 参考訳(メタデータ) (2024-10-16T17:59:02Z) - MMMU-Pro: A More Robust Multi-discipline Multimodal Understanding Benchmark [77.93283927871758]
本稿では,Multi-discipline Multi-modal Understanding and Reasoningベンチマークの頑健なバージョンであるMMMU-Proを紹介する。
MMMU-Proは、マルチモーダルモデルの真の理解と推論能力を厳格に評価する。
論文 参考訳(メタデータ) (2024-09-04T15:31:26Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - GAOKAO-MM: A Chinese Human-Level Benchmark for Multimodal Models Evaluation [55.2480439325792]
LVLM(Large Vision-Language Models)は画像認識と言語理解に優れた能力を示す。
中国大学入学試験(GAokao-MM)に基づくマルチモーダルベンチマークであるGAokao-MMを提案する。
GPT-4-Vison(48.1%)、Qwen-VL-Plus(41.2%)、Gemini-Pro-Vision(35.1%)が上位3位である。
論文 参考訳(メタデータ) (2024-02-24T06:57:15Z) - CMMMU: A Chinese Massive Multi-discipline Multimodal Understanding Benchmark [53.24896036161829]
大学レベルの教科知識と意図的推論を必要とするタスクにおいて,LMMを評価するために設計された,中国の大規模多分野マルチモーダル理解ベンチマークを導入する。
CMMMUは、大学試験、クイズ、教科書から12kの質問を手作業で収集し、アート・アンド・デザイン、ビジネス、サイエンス、ヘルス・アンド・メディカル、ヒューマニティ・アンド・ソーシャル・サイエンス、テック・アンド・エンジニアリングの6つの中核分野をカバーしている。
CMMMUは、中国語の文脈における複雑な認識とドメイン固有の知識による推論に焦点を当てている。
論文 参考訳(メタデータ) (2024-01-22T13:34:34Z) - MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI [64.21953221846596]
MMMUは、大規模多分野タスクにおけるマルチモーダルモデルを評価するために設計された新しいベンチマークである。
被験者は30名、サブフィールドは183名、画像タイプは30名である。
14のオープンソースLMMとプロプライエタリなGPT-4V(ision)とGeminiの評価は、MMMUがもたらす重大な課題を強調している。
論文 参考訳(メタデータ) (2023-11-27T17:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。