論文の概要: MMRareBench: A Rare-Disease Multimodal and Multi-Image Medical Benchmark
- arxiv url: http://arxiv.org/abs/2604.10755v1
- Date: Sun, 12 Apr 2026 17:53:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.202422
- Title: MMRareBench: A Rare-Disease Multimodal and Multi-Image Medical Benchmark
- Title(参考訳): MMRareBench: 希少なマルチモーダルおよびマルチイメージ医療ベンチマーク
- Authors: Junzhi Ning, Jiashi Lin, Yingying Fang, Wei Li, Jiyao Liu, Cheng Tang, Chenglong Ma, Wenhao Tang, Tianbin Li, Ziyan Huang, Guang Yang, Junjun He,
- Abstract要約: MLLM(Multimodal large language model)は、一般的な疾患に対する先進的な臨床課題があるが、希少な疾患に対するパフォーマンスはほとんど検査されていない。
我々は,MMRareBenchについて,マルチモーダルおよびマルチイメージ臨床能力の評価を共同で行った最初のレア・ディスリーズ・ベンチマークについて紹介する。
- 参考スコア(独自算出の注目度): 18.462341223913153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have advanced clinical tasks for common conditions, but their performance on rare diseases remains largely untested. In rare-disease scenarios, clinicians often lack prior clinical knowledge, forcing them to rely strictly on case-level evidence for clinical judgments. Existing benchmarks predominantly evaluate common-condition, single-image settings, leaving multimodal and multi-image evidence integration under rare-disease data scarcity systematically unevaluated. We introduce MMRareBench, to our knowledge the first rare-disease benchmark jointly evaluating multimodal and multi-image clinical capability across four workflow-aligned tracks: diagnosis, treatment planning, cross-image evidence alignment, and examination suggestion. The benchmark comprises 1,756 question-answer pairs with 7,958 associated medical images curated from PMC case reports, with Orphanet-anchored ontology alignment, track-specific leakage control, evidence-grounded annotations, and a two-level evaluation protocol. A systematic evaluation of 23 MLLMs reveals fragmented capability profiles and universally low treatment-planning performance, with medical-domain models trailing general-purpose MLLMs substantially on multi-image tracks despite competitive diagnostic scores. These patterns are consistent with a capacity dilution effect: medical fine-tuning can narrow the diagnostic gap but may erode the compositional multi-image capability that rare-disease evidence integration demands.
- Abstract(参考訳): MLLM(Multimodal large language model)は、一般的な疾患に対する先進的な臨床課題があるが、希少な疾患に対するパフォーマンスはほとんど検査されていない。
稀な症例では、臨床医は臨床知識を欠くことが多く、臨床診断のケースレベルの証拠に厳格に頼らざるを得ない。
既存のベンチマークは、一般的な条件、単一イメージの設定を主に評価し、希少なデータ不足下でのマルチモーダルとマルチイメージのエビデンスの統合を体系的に未評価のまま残している。
我々は,MMRareBenchについて,診断,治療計画,クロスイメージエビデンスアライメントアライメント,検査提案の4トラックで,マルチモーダルおよびマルチモーダルの臨床能力を共同評価した最初のレア・ディスリーズ・ベンチマークについて紹介する。
このベンチマークは、1,756対の質問応答対と、7,958個の関連する医療画像、Orphanet-anchoredオントロジーアライメント、トラック固有の漏洩制御、エビデンスグラウンドアノテーション、および2レベル評価プロトコルで構成されている。
23個のMLLMの系統的評価では, 競合診断スコアにもかかわらず, 汎用MLLMを実質的に追従する医療ドメインモデルにより, フラグメント化された機能プロファイルと, 治療計画性能が低いことが明らかとなった。
これらのパターンは容量の希釈効果と一致しており、医学的な微調整は診断ギャップを狭めることができるが、希少なエビデンス統合要求が要求される構成的マルチイメージ能力を損なう可能性がある。
関連論文リスト
- Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs [63.535652574541764]
MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。
消化器内視鏡におけるそれらの応用は、現在、2つの重要な限界によって妨げられている。
本稿では,これらの課題に対処する新しい臨床認知アライメント(CogAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-21T07:47:37Z) - CURE: A Multimodal Benchmark for Clinical Understanding and Retrieval Evaluation [15.226811873305072]
臨床理解・検索評価ベンチマークについて紹介する。
CUREは、制御されたエビデンス設定の下で推論と検索を評価する。
閉鎖的, オープンな診断タスクにおいて, 異なるエビデンス収集パラダイムにまたがる最先端のMLLMを評価した。
論文 参考訳(メタデータ) (2026-02-28T02:56:18Z) - Quasi-multimodal-based pathophysiological feature learning for retinal disease diagnosis [4.437523386839875]
多モードデータ合成と融合を統合した統合フレームワークが網膜疾患の分類とグレーディングのために提案されている。
提案する学習システムは,画像空間と特徴空間の両方の可視化を通して,徹底的に解釈される。
この研究は網膜疾患スクリーニングの精度と効率を高めるだけでなく、様々な医用画像モダリティにまたがるデータ拡張のためのスケーラブルなフレームワークも提供する。
論文 参考訳(メタデータ) (2026-02-03T15:13:57Z) - MMedExpert-R1: Strengthening Multimodal Medical Reasoning via Domain-Specific Adaptation and Clinical Guideline Reinforcement [63.82954136824963]
医療ビジョンランゲージモデルでは、現実世界のシナリオで必要とされる複雑な臨床推論を伴う知覚タスクが優れている。
本稿ではドメイン固有の適応とガイドライン強化を通じてこれらの課題に対処する新しい推論MedVLMを提案する。
論文 参考訳(メタデータ) (2026-01-16T02:32:07Z) - Citrus-V: Advancing Medical Foundation Models with Unified Medical Image Grounding for Clinical Reasoning [13.783146290218738]
本稿では,画像解析とテキスト推論を組み合わせたマルチモーダル医療基盤モデルであるCitrus-Vを紹介する。
このモデルは、検出、セグメンテーション、およびマルチモーダル・チェーン・オブ・シント推論を統合する。
ピクセルレベルの病変の局所化、構造化レポート生成、医師のような診断推論をサポートする。
論文 参考訳(メタデータ) (2025-09-23T14:42:31Z) - EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - A Novel Ophthalmic Benchmark for Evaluating Multimodal Large Language Models with Fundus Photographs and OCT Images [11.761590928900358]
眼科領域では,光学コヒーレンス・トモグラフィー(OCT)の報告を解析するために,大言語モデル(MLLM)が研究されている。
データセットは439基の画像と75基のOCT画像からなる。
標準化されたAPIベースのフレームワークを用いて、7つの主流MLLMを評価し、異なる疾患の診断精度に有意なばらつきが認められた。
論文 参考訳(メタデータ) (2025-03-10T09:19:55Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Malignancy Prediction and Lesion Identification from Clinical
Dermatological Images [65.1629311281062]
臨床皮膚画像から機械学習に基づく悪性度予測と病変の同定を検討する。
まず, サブタイプや悪性度に関わらず画像に存在するすべての病変を同定し, その悪性度を推定し, 凝集により, 画像レベルの悪性度も生成する。
論文 参考訳(メタデータ) (2021-04-02T20:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。