論文の概要: MedBLINK: Probing Basic Perception in Multimodal Language Models for Medicine
- arxiv url: http://arxiv.org/abs/2508.02951v1
- Date: Mon, 04 Aug 2025 23:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.715582
- Title: MedBLINK: Probing Basic Perception in Multimodal Language Models for Medicine
- Title(参考訳): MedBLINK:医療用多モーダル言語モデルにおける基本認識の探索
- Authors: Mahtab Bigverdi, Wisdom Ikezogwo, Kevin Zhang, Hyewon Jeong, Mingyu Lu, Sungjae Cho, Linda Shapiro, Ranjay Krishna,
- Abstract要約: このような知覚能力に対してこれらのモデルを探索するためのベンチマークであるMedblinkを紹介する。
メドブリンクは、複数の画像モダリティと解剖学的領域にまたがる8つの臨床的に有意義なタスクにまたがっており、1,605枚の画像に対して1,429個の多重選択質問を出している。
ヒトのアノテータは96.4%の精度を達成しているが、最高のパフォーマンスモデルは65%にしか達していない。
- 参考スコア(独自算出の注目度): 12.333678882957377
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal language models (MLMs) show promise for clinical decision support and diagnostic reasoning, raising the prospect of end-to-end automated medical image interpretation. However, clinicians are highly selective in adopting AI tools; a model that makes errors on seemingly simple perception tasks such as determining image orientation or identifying whether a CT scan is contrast-enhance are unlikely to be adopted for clinical tasks. We introduce Medblink, a benchmark designed to probe these models for such perceptual abilities. Medblink spans eight clinically meaningful tasks across multiple imaging modalities and anatomical regions, totaling 1,429 multiple-choice questions over 1,605 images. We evaluate 19 state-of-the-art MLMs, including general purpose (GPT4o, Claude 3.5 Sonnet) and domain specific (Med Flamingo, LLaVA Med, RadFM) models. While human annotators achieve 96.4% accuracy, the best-performing model reaches only 65%. These results show that current MLMs frequently fail at routine perceptual checks, suggesting the need to strengthen their visual grounding to support clinical adoption. Data is available on our project page.
- Abstract(参考訳): マルチモーダル言語モデル(MLM)は、臨床診断支援と診断推論の約束を示し、エンドツーエンドの自動化された医療画像解釈の可能性を高める。
しかし、臨床医はAIツールの採用において非常に選択的であり、画像の向きの決定やCTスキャンがコントラスト・エンハンスであるかどうかの特定など、一見単純な知覚タスクでエラーを犯すモデルが臨床に採用される可能性は低い。
このような知覚能力に対してこれらのモデルを探索するためのベンチマークであるMedblinkを紹介する。
メドブリンクは、複数の画像モダリティと解剖学的領域にまたがる8つの臨床的に有意義なタスクにまたがっており、1,605枚の画像に対して1,429個の多重選択質問を出している。
我々は、汎用(GPT4o, Claude 3.5 Sonnet)やドメイン固有(Med Flamingo, LLaVA Med, RadFM)を含む19の最先端MLMを評価した。
ヒトのアノテータは96.4%の精度を達成しているが、最高のパフォーマンスモデルは65%にしか達していない。
これらの結果から,現在のMLMは日常的な知覚検査で頻繁に失敗し,臨床応用を支援するために視覚的基盤を強化する必要性が示唆された。
データは当社のプロジェクトページで公開されています。
関連論文リスト
- Med-PRM: Medical Reasoning Models with Stepwise, Guideline-verified Process Rewards [21.831262938278915]
Med-PRMは、確立した医療知識ベースに対する各推論ステップを検証するためのプロセス報酬モデリングフレームワークである。
Med-PRMは最先端のパフォーマンスを実現し、ベースモデルの性能を最大13.50%向上させた。
我々は、Med-PRMの汎用性を、Meerkatのような強力なポリシーモデルとプラグイン・アンド・プレイ方式で統合することで示す。
論文 参考訳(メタデータ) (2025-06-13T05:36:30Z) - Medical Large Vision Language Models with Multi-Image Visual Ability [46.889345205047675]
83.2Kの医療用マルチイメージQAペアからなるMed-MIM命令データセットを提案する。
我々は,マンティスとLLaVA-Medを微調整し,MIM-LLaVA-MedとMed-Mantisの2種類の専門医用VLMを作製した。
また,LVLMの医用マルチイメージ理解能力を評価するために,Med-MIMベンチマークを開発した。
論文 参考訳(メタデータ) (2025-05-25T08:31:22Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - One-shot Localization and Segmentation of Medical Images with Foundation
Models [7.9060536840474365]
自然画像上で訓練されたモデルが,医用画像上で優れた性能を発揮することを示す。
テンプレート画像に対する対応を利用して、Segment Anything(SAM)モデルを単一ショットセグメンテーションに到達させる。
また,本手法は,最近提案された複数ショットセグメンテーション法であるUniverSegよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-28T08:58:20Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z) - Segment Anything in Medical Images [21.43661408153244]
医用画像の普遍的分割を可能にする基盤モデルであるMedSAMについて述べる。
このモデルは、1,570,263枚の画像マスク対を持つ大規模医療画像データセット上で開発され、10種類の画像モダリティと30以上のがんタイプをカバーする。
論文 参考訳(メタデータ) (2023-04-24T17:56:12Z) - Ambiguous Medical Image Segmentation using Diffusion Models [60.378180265885945]
我々は,グループ洞察の分布を学習することで,複数の可算出力を生成する単一拡散モデルに基づくアプローチを提案する。
提案モデルでは,拡散の固有のサンプリングプロセスを利用してセグメンテーションマスクの分布を生成する。
その結果,提案手法は既存の最先端曖昧なセグメンテーションネットワークよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-10T17:58:22Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。