論文の概要: SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning
- arxiv url: http://arxiv.org/abs/2506.21355v1
- Date: Thu, 26 Jun 2025 15:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.150958
- Title: SMMILE: An Expert-Driven Benchmark for Multimodal Medical In-Context Learning
- Title(参考訳): SMMILE:マルチモーダル医療インコンテキストラーニングのためのエキスパート駆動ベンチマーク
- Authors: Melanie Rieff, Maya Varma, Ossian Rabow, Subathra Adithan, Julie Kim, Ken Chang, Hannah Lee, Nidhi Rohatgi, Christian Bluethgen, Mohamed S. Muneer, Jean-Benoit Delbrouck, Michael Moor,
- Abstract要約: マルチモーダル・イン・コンテクスト・ラーニング (ICL) は, 医学などの領域において有意な可能性を秘めている。
SMMILEは、医療タスクのためのエキスパート主導型マルチモーダルICLベンチマークである。
- 参考スコア(独自算出の注目度): 7.83388786365589
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal in-context learning (ICL) remains underexplored despite significant potential for domains such as medicine. Clinicians routinely encounter diverse, specialized tasks requiring adaptation from limited examples, such as drawing insights from a few relevant prior cases or considering a constrained set of differential diagnoses. While multimodal large language models (MLLMs) have shown advances in medical visual question answering (VQA), their ability to learn multimodal tasks from context is largely unknown. We introduce SMMILE, the first expert-driven multimodal ICL benchmark for medical tasks. Eleven medical experts curated problems, each including a multimodal query and multimodal in-context examples as task demonstrations. SMMILE encompasses 111 problems (517 question-image-answer triplets) covering 6 medical specialties and 13 imaging modalities. We further introduce SMMILE++, an augmented variant with 1038 permuted problems. A comprehensive evaluation of 15 MLLMs demonstrates that most models exhibit moderate to poor multimodal ICL ability in medical tasks. In open-ended evaluations, ICL contributes only 8% average improvement over zero-shot on SMMILE and 9.4% on SMMILE++. We observe a susceptibility for irrelevant in-context examples: even a single noisy or irrelevant example can degrade performance by up to 9.5%. Moreover, example ordering exhibits a recency bias, i.e., placing the most relevant example last can lead to substantial performance improvements by up to 71%. Our findings highlight critical limitations and biases in current MLLMs when learning multimodal medical tasks from context.
- Abstract(参考訳): マルチモーダル・イン・コンテクスト・ラーニング (ICL) は, 医学などの領域において有意な可能性を秘めている。
臨床医は、いくつかの関連する先行例からの洞察を引くことや、制約された差分診断のセットを考慮することなど、限られた例から適応する必要がある多様な専門的なタスクに定期的に遭遇する。
マルチモーダル大規模言語モデル (MLLM) は, 医療用視覚質問応答 (VQA) の進歩を示しているが, 文脈から多モーダルタスクを学習する能力はほとんど不明である。
SMMILEは、医療タスクのためのエキスパート主導型マルチモーダルICLベンチマークである。
11人の医療専門家が問題を修正し、それぞれがマルチモーダルクエリとマルチモーダルなインコンテキストの例をタスクデモとして使用した。
SMMILEは6つの専門医と13の画像モダリティをカバーする111の課題(質問画像回答三つ子517)を含む。
SMMILE++は1038の置換問題を持つ拡張型である。
15個のMLLMの総合的な評価は、ほとんどのモデルが医療タスクにおいて中等度から劣悪なマルチモーダルICL能力を示すことを示している。
オープンエンド評価では、ICLはSMMILEでゼロショットよりも8%、SMMILE++で9.4%しか改善していない。
一つのノイズや無関係な例であっても、パフォーマンスを最大9.5%低下させることができる。
さらに、例えば順序付けでは、最も関連性の高い例を最後に配置すると、パフォーマンスが最大で71%向上する可能性がある。
本研究は,マルチモーダル医療課題を文脈から学習する際のMLLMの限界とバイアスを明らかにする。
関連論文リスト
- Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。
次に医学専門のMLLMであるLingshuを紹介します。
Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文 参考訳(メタデータ) (2025-06-08T08:47:30Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - Inquire, Interact, and Integrate: A Proactive Agent Collaborative Framework for Zero-Shot Multimodal Medical Reasoning [21.562034852024272]
医療における大規模言語モデル(LLM)の導入は、大きな研究関心を集めている。
ほとんどの最先端のLCMは、マルチモーダル入力を直接処理できない、単調でテキストのみのモデルである。
医療マルチモーダル推論問題を解決するために,マルチモーダル医療協調推論フレームワーク textbfMultiMedRes を提案する。
論文 参考訳(メタデータ) (2024-05-19T18:26:11Z) - RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question
Answering and Clinical Reasoning [14.366349078707263]
RJUA-MedDQAは医学専門分野における総合的なベンチマークである。
本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
論文 参考訳(メタデータ) (2024-02-19T06:57:02Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。