論文の概要: Worse than Random? An Embarrassingly Simple Probing Evaluation of Large Multimodal Models in Medical VQA
- arxiv url: http://arxiv.org/abs/2405.20421v4
- Date: Sat, 05 Oct 2024 00:09:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:38:32.147026
- Title: Worse than Random? An Embarrassingly Simple Probing Evaluation of Large Multimodal Models in Medical VQA
- Title(参考訳): ランダムよりも悪いか? 医療用VQAにおける大規模マルチモーダルモデルの恥ずかしいほど単純な検証
- Authors: Qianqi Yan, Xuehai He, Xiang Yue, Xin Eric Wang,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は医療用視覚質問応答(Med-VQA)において顕著な進歩を示した
本研究は, 簡易な探索評価を行う場合, 医学的診断問題に対するランダムな推測よりも, 最先端のモデルの方が悪いことを明らかにした。
- 参考スコア(独自算出の注目度): 24.10436440624249
- License:
- Abstract: Large Multimodal Models (LMMs) have shown remarkable progress in medical Visual Question Answering (Med-VQA), achieving high accuracy on existing benchmarks. However, their reliability under robust evaluation is questionable. This study reveals that when subjected to simple probing evaluation, state-of-the-art models perform worse than random guessing on medical diagnosis questions. To address this critical evaluation problem, we introduce the Probing Evaluation for Medical Diagnosis (ProbMed) dataset to rigorously assess LMM performance in medical imaging through probing evaluation and procedural diagnosis. Particularly, probing evaluation features pairing original questions with negation questions with hallucinated attributes, while procedural diagnosis requires reasoning across various diagnostic dimensions for each image, including modality recognition, organ identification, clinical findings, abnormalities, and positional grounding. Our evaluation reveals that top-performing models like GPT-4o, GPT-4V, and Gemini Pro perform worse than random guessing on specialized diagnostic questions, indicating significant limitations in handling fine-grained medical inquiries. Besides, models like LLaVA-Med struggle even with more general questions, and results from CheXagent demonstrate the transferability of expertise across different modalities of the same organ, showing that specialized domain knowledge is still crucial for improving performance. This study underscores the urgent need for more robust evaluation to ensure the reliability of LMMs in critical fields like medical diagnosis, and current LMMs are still far from applicable to those fields.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は医用視覚質問応答(Med-VQA)において顕著な進歩を示し、既存のベンチマークで高い精度を達成している。
しかし、頑健な評価下での信頼性は疑わしい。
本研究は, 簡易な探索評価を行う場合, 医学的診断問題に対するランダムな推測よりも, 最先端のモデルの方が悪いことを明らかにした。
この批判的評価問題に対処するため,医用画像のLMM性能を探索的評価と手続き的診断により厳格に評価するProbMed(ProbMed)データセットを導入した。
特に、プロシージャ診断には、モダリティ認識、臓器の同定、臨床所見、異常、位置的接地など、各画像の様々な診断次元の推論が必要である。
評価の結果, GPT-4o, GPT-4V, Gemini Pro などのトップパフォーマンスモデルでは, 特定診断質問に対するランダムな推測よりも性能が悪く, きめ細かい医療問合せの処理に限界があることが示唆された。
さらに、LLaVA-Medのようなモデルは、より一般的な疑問に苦しむとともに、CheXagentの結果は、同じ臓器の異なるモダリティをまたいだ専門知識の伝達可能性を示している。
本研究は, 医療診断などの重要な分野におけるLMMの信頼性を確保するために, より堅牢な評価の必要性を浮き彫りにするものである。
関連論文リスト
- MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。
ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。
その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。
実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-15T21:09:09Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - MiniGPT-Med: Large Language Model as a General Interface for Radiology Diagnosis [28.421857904824627]
MiniGPT-Medは、大規模言語モデルから派生したヴィジュアル言語モデルであり、医学的応用に適したものである。
医療報告生成、視覚的質問応答(VQA)、医療画像内の疾患識別などのタスクを実行することができる。
医療報告生成の最先端性能は,従来の最良モデルよりも19%高い精度で達成される。
論文 参考訳(メタデータ) (2024-07-04T18:21:10Z) - RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question
Answering and Clinical Reasoning [14.366349078707263]
RJUA-MedDQAは医学専門分野における総合的なベンチマークである。
本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
論文 参考訳(メタデータ) (2024-02-19T06:57:02Z) - Rescuing referral failures during automated diagnosis of domain-shifted
medical images [17.349847762608086]
異なる人口層から取得した医療画像や、別の技術を用いて測定した場合、最先端の領域一般化アプローチでさえ、参照中に深刻な失敗を犯すことが示される。
我々は,これらの障害を解消し,大幅な性能向上を実現する,ロバストな一般化とポストホック参照アプローチの新たな組み合わせを評価する。
論文 参考訳(メタデータ) (2023-11-28T13:14:55Z) - A Systematic Evaluation of GPT-4V's Multimodal Capability for Medical
Image Analysis [87.25494411021066]
医用画像解析のためのGPT-4Vのマルチモーダル機能の評価を行った。
GPT-4Vは医用画像の理解に優れ、高品質な放射線診断レポートを生成する。
医用視覚接地の性能は大幅に改善する必要があることが判明した。
論文 参考訳(メタデータ) (2023-10-31T11:39:09Z) - An Automatic Evaluation Framework for Multi-turn Medical Consultations
Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。
本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-05T09:24:48Z) - BMAD: Benchmarks for Medical Anomaly Detection [51.22159321912891]
異常検出(AD)は、機械学習とコンピュータビジョンの基本的な研究課題である。
医用画像では、ADはまれな疾患や病態を示す可能性のある異常の検出と診断に特に重要である。
医用画像の異常検出方法を評価するための総合評価ベンチマークを導入する。
論文 参考訳(メタデータ) (2023-06-20T20:23:46Z) - Scalable Online Disease Diagnosis via Multi-Model-Fused Actor-Critic
Reinforcement Learning [9.274138493400436]
医療のアドバイスをオンラインで求めている人にとっては、患者と対話して自動的に疾患を診断できるAIベースの対話エージェントが有効な選択肢だ。
これは、強化学習(RL)アプローチを自然解として提案した逐次的特徴(症状)選択と分類の問題として定式化することができる。
生成的アクターネットワークと診断批評家ネットワークから構成されるMMF-AC(Multi-Model-Fused Actor-Critic)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-08T03:06:16Z) - Towards Causality-Aware Inferring: A Sequential Discriminative Approach
for Medical Diagnosis [142.90770786804507]
医学診断アシスタント(MDA)は、疾患を識別するための症状を逐次調査する対話型診断エージェントを構築することを目的としている。
この研究は、因果図を利用して、MDAにおけるこれらの重要な問題に対処しようとする。
本稿では,他の記録から知識を引き出すことにより,非記録的調査に効果的に答える確率に基づく患者シミュレータを提案する。
論文 参考訳(メタデータ) (2020-03-14T02:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。