論文の概要: OmniBrainBench: A Comprehensive Multimodal Benchmark for Brain Imaging Analysis Across Multi-stage Clinical Tasks
- arxiv url: http://arxiv.org/abs/2511.00846v1
- Date: Sun, 02 Nov 2025 08:11:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.961672
- Title: OmniBrainBench: A Comprehensive Multimodal Benchmark for Brain Imaging Analysis Across Multi-stage Clinical Tasks
- Title(参考訳): OmniBrainBench:多段階臨床における脳画像解析のための総合的マルチモーダルベンチマーク
- Authors: Zhihao Peng, Cheng Wang, Shengyuan Liu, Zhiying Liang, Yixuan Yuan,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、脳画像解析をますます支援している。
現在の脳指向視覚質問応答(VQA)ベンチマークは、いくつかの画像モダリティをカバーするか、または粗い病理学的記述に限定されている。
OmniBrainBenchは,脳画像解析におけるMLLMのマルチモーダル理解能力を評価するために設計された,初めての総合的マルチモーダルVQAベンチマークである。
- 参考スコア(独自算出の注目度): 41.33747208780257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Brain imaging analysis is vital for diagnosing and treating brain disorders, and multimodal large language models (MLLMs) are increasingly assisting in that analysis. However, current brain-oriented visual question-answering (VQA) benchmarks either cover a few imaging modalities or are limited to coarse-grained pathological descriptions, hindering a comprehensive assessment of MLLMs throughout the full clinical continuum. To address these, we introduce OmniBrainBench, the first comprehensive multimodal VQA benchmark specifically designed to assess the multimodal comprehension capabilities of MLLMs in brain imaging analysis.OmniBrainBench consists of 15 distinct brain imaging modalities collected from 30 verified medical sources, yielding 9,527 validated VQA pairs and 31,706 images. It simulates clinical workflows and encompasses 15 multi-stage clinical tasks rigorously validated by a professional radiologist. Evaluation of 24 state-of-the-art models, including open-source, medical, and proprietary MLLMs, highlights the substantial challenges posed by OmniBrainBench. Our experiments reveal: (1) proprietary MLLMs (e.g., GPT-5) beat open-source and medical models but lag physicians; (2) medical MLLMs vary widely in performance; (3) open-source MLLMs trail overall but excel in specific tasks; (4) MLLMs underperform sharply in complex preoperative tasks, revealing a visual-to-clinical reasoning gap. OmniBrainBench sets a new standard for evaluating and advancing MLLMs in brain imaging analysis, highlighting gaps compared to expert clinical reasoning. We release it at benchmark \& code.
- Abstract(参考訳): 脳画像解析は脳疾患の診断と治療に不可欠であり、マルチモーダル大言語モデル(MLLM)はその分析をますます支援している。
しかし、現在の脳指向視覚質問応答(VQA)ベンチマークでは、いくつかの画像モダリティをカバーしているか、あるいは詳細な病理学的記述に制限されているため、完全な臨床連続体全体にわたるMLLMの包括的な評価を妨げている。
OmniBrainBenchは、脳画像解析におけるMLLMのマルチモーダル理解能力を評価するために設計された最初の総合的マルチモーダルVQAベンチマークである。OmniBrainBenchは、30の検診ソースから収集された15の異なる脳画像モダリティで構成され、9,527の検証VQAペアと31,706の画像を生成する。
臨床ワークフローをシミュレートし、プロの放射線技師によって厳格に検証された15の多段階臨床タスクを包含する。
オープンソース、医療、プロプライエタリMLLMを含む24の最先端モデルの評価は、OmniBrainBenchがもたらす重大な課題を強調している。
実験の結果, (1) プロプライエタリMLLM (e , GPT-5) は, オープンソースおよび医療モデルに勝るが, 遅れ医師に勝る, (2) 医療MLLM は全般的に異なる, (3) オープンソースMLLM は特定のタスクに優れており, (4) MLLM は複雑な術前作業において顕著に機能し, 視覚的・クリニカルな推論のギャップが明らかとなった。
OmniBrainBenchは、脳画像解析におけるMLLMの評価と進歩のための新しい標準を設定し、専門的な臨床推論と比較してギャップを強調している。
ベンチマーク \& コードでリリースしています。
関連論文リスト
- Bridging the Gap in Ophthalmic AI: MM-Retinal-Reason Dataset and OphthaReason Model toward Dynamic Multimodal Reasoning [15.73558614478585]
本稿では,眼科用マルチモーダルデータセットMM-Retinal-Reasonについて紹介する。
MM-Retinal-Reasonに基づいて,第1の眼科特異的多モード推論モデルであるOphthaReasonを提案する。
本モデルは,基礎的および複雑な推論タスクにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-08-22T06:47:30Z) - MAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized Collaboration [57.98393950821579]
マルチモーダル医療診断のためのモジュール型マルチエージェントフレームワーク(MAM)について紹介する。
我々の経験的発見に触発されて、MAMは医療診断プロセスを、一般実践者、スペシャリストチーム、放射線科医、医療助手、ディレクターの専門的な役割に分解する。
このモジュール的で協調的なフレームワークは、効率的な知識更新を可能にし、既存の医療用LLMと知識ベースを活用する。
論文 参考訳(メタデータ) (2025-06-24T17:52:43Z) - EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - LLaVA-RadZ: Can Multimodal Large Language Models Effectively Tackle Zero-shot Radiology Recognition? [59.81732629438753]
LLaVA-RadZは、既存のMLLM機能を利用して、ゼロショットの医療疾患認識のための、シンプルで効果的なフレームワークである。
具体的には、MLLMデコーダアーキテクチャの特性を活用するために、DFAT(Decoding-Side Feature Alignment Training)と呼ばれるエンドツーエンドのトレーニング戦略を設計する。
また,大規模モデルの本質的な医学的知識を活用するために,DKAM(Domain Knowledge Anchoring Module)を導入する。
論文 参考訳(メタデータ) (2025-03-10T16:05:40Z) - FunBench: Benchmarking Fundus Reading Skills of MLLMs [11.082273291462869]
MLLM(Multimodal Large Language Models)は、医療画像解析において重要な可能性を示している。
既存のベンチマークには細かなタスク分割がなく、その2つの主要なモジュール、すなわち大きな言語モデル(LLM)と視覚エンコーダ(VE)のモジュラー解析が提供できない。
本稿では,MLLMの知識を総合的に評価するための新しい視覚的質問応答(VQA)ベンチマークであるFunBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-02T14:00:24Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question
Answering and Clinical Reasoning [14.366349078707263]
RJUA-MedDQAは医学専門分野における総合的なベンチマークである。
本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
論文 参考訳(メタデータ) (2024-02-19T06:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。