Fugu-MT 論文翻訳(概要): MediConfusion: Can you trust your AI radiologist? Probing the reliability of multimodal medical foundation models

論文の概要: MediConfusion: Can you trust your AI radiologist? Probing the reliability of multimodal medical foundation models

arxiv url: http://arxiv.org/abs/2409.15477v1
Date: Mon, 23 Sep 2024 18:59:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-26 12:57:29.210136
Title: MediConfusion: Can you trust your AI radiologist? Probing the reliability of multimodal medical foundation models
Title（参考訳）: メディコンフュージョン:AI放射線技師を信頼できますか?マルチモーダル医療基盤モデルの信頼性を探る
Authors: Mohammad Shahab Sepehri, Zalan Fabian, Maryam Soltanolkotabi, Mahdi Soltanolkotabi,
Abstract要約: 医用ビジュアル質問回答(VQA)ベンチマークデータセットであるMedConfusionを紹介した。現状のモデルは、画像のペアによって容易に混同され、それ以外は視覚的に異なっており、医療専門家にとってはっきりと区別されている。また、医療における信頼性が高く信頼性の高いMLLMの新しい世代の設計に役立つモデル失敗の共通パターンを抽出する。
参考スコア（独自算出の注目度）: 20.781551849965357
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal Large Language Models (MLLMs) have tremendous potential to improve the accuracy, availability, and cost-effectiveness of healthcare by providing automated solutions or serving as aids to medical professionals. Despite promising first steps in developing medical MLLMs in the past few years, their capabilities and limitations are not well-understood. Recently, many benchmark datasets have been proposed that test the general medical knowledge of such models across a variety of medical areas. However, the systematic failure modes and vulnerabilities of such models are severely underexplored with most medical benchmarks failing to expose the shortcomings of existing models in this safety-critical domain. In this paper, we introduce MediConfusion, a challenging medical Visual Question Answering (VQA) benchmark dataset, that probes the failure modes of medical MLLMs from a vision perspective. We reveal that state-of-the-art models are easily confused by image pairs that are otherwise visually dissimilar and clearly distinct for medical experts. Strikingly, all available models (open-source or proprietary) achieve performance below random guessing on MediConfusion, raising serious concerns about the reliability of existing medical MLLMs for healthcare deployment. We also extract common patterns of model failure that may help the design of a new generation of more trustworthy and reliable MLLMs in healthcare.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は、自動化されたソリューションの提供や医療専門家への援助によって、医療の正確性、可用性、費用対効果を向上させる大きな可能性を秘めている。過去数年間、医療MLLMの開発において有望な第一歩を踏み出したが、その能力と限界は十分に理解されていない。近年,様々な医療分野において,このようなモデルの一般的な医学的知識をテストするためのベンチマークデータセットが多数提案されている。しかし、そのようなモデルの体系的な障害モードと脆弱性は、多くの医療ベンチマークでは、この安全クリティカルな領域における既存のモデルの欠点を露呈することができないため、非常に過小評価されている。本稿では、医用MLLMの故障モードを視覚的視点から調査する、挑戦的な医用ビジュアル質問回答(VQA)ベンチマークデータセットであるMedConfusionを紹介する。現状のモデルは、画像のペアによって容易に混同され、それ以外は視覚的に異なっており、医療専門家にとって明確に区別されている。興味深いことに、利用可能なすべてのモデル(オープンソースまたはプロプライエタリ)は、MedConfusionのランダムな推測以下のパフォーマンスを実現し、既存の医療MLLMの医療デプロイメントに対する信頼性に関する深刻な懸念を提起している。また、医療における信頼性が高く信頼性の高いMLLMの新しい世代の設計に役立つモデル失敗の共通パターンを抽出する。

関連論文リスト

Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文参考訳（メタデータ） (2024-12-31T19:55:45Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
Parameter-Efficient Fine-Tuning Medical Multimodal Large Language Models for Medical Visual Grounding [9.144030136201476]
マルチモーダル大言語モデル(MLLM)は、LLMの優れたテキスト理解能力を継承し、これらの機能をマルチモーダルシナリオに拡張する。これらのモデルは、マルチモーダルタスクの一般領域において優れた結果をもたらす。しかし,医療分野では,医療用MLLMの開発に多大なトレーニングコストと広範な医療データを必要とすることが課題となっている。
論文参考訳（メタデータ） (2024-10-31T11:07:26Z)
MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。 Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文参考訳（メタデータ） (2024-10-16T23:03:27Z)
HuatuoGPT-Vision, Towards Injecting Medical Visual Knowledge into Multimodal LLMs at Scale [29.956053068653734]
私たちは13万の医療用VQAサンプルでPubMedVisionデータセットを作成します。 PubMedVisionを用いて34Bの医療MLLM HuatuoGPT-Visionを訓練し、医療マルチモーダルシナリオにおいて優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2024-06-27T15:50:41Z)
CARES: A Comprehensive Benchmark of Trustworthiness in Medical Vision Language Models [92.04812189642418]
我々はCARESを紹介し,医療領域全体での医療LVLMの信頼性を評価することを目的とする。我々は,Med-LVLMの信頼性を,信頼性,公正性,安全性,プライバシ,堅牢性,5次元にわたって評価する。
論文参考訳（メタデータ） (2024-06-10T04:07:09Z)
Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。 Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文参考訳（メタデータ） (2024-02-17T08:04:23Z)
OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文参考訳（メタデータ） (2024-02-14T13:51:56Z)
Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文参考訳（メタデータ） (2024-02-05T08:25:22Z)
Medical Foundation Models are Susceptible to Targeted Misinformation Attacks [3.252906830953028]
大規模言語モデル(LLM)は幅広い医学知識を持ち、多くの領域にわたって医療情報を推論することができる。モデルの重量のわずか1.1%を目標に操作することで、医学におけるLSMの脆弱性を実証する。我々は1038件の誤った生物医学的事実のセットでこの知見を検証した。
論文参考訳（メタデータ） (2023-09-29T06:44:36Z)
Self-Diagnosis and Large Language Models: A New Front for Medical Misinformation [8.738092015092207]
一般ユーザによる自己診断のレンズから,大規模言語モデル(LLM)の性能を評価する。本研究では,実世界の事例を模倣したオープンエンド質問に対する応答を評価するテスト手法を開発した。 a) これらのモデルでは, 既知よりもパフォーマンスが悪く, b) 誤ったレコメンデーションを述べる際に, 過度な自信を含む特異な行動を示すことが明らかとなった。
論文参考訳（メタデータ） (2023-07-10T21:28:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。