論文の概要: TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.25143v1
- Date: Mon, 29 Sep 2025 17:51:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:20.189923
- Title: TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models
- Title(参考訳): TemMed-Bench:視覚言語モデルにおける時間的医用画像推論の評価
- Authors: Junyi Zhang, Jia-Chen Gu, Wenbo Hu, Yu Zhou, Robinson Piramuthu, Nanyun Peng,
- Abstract要約: 既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
- 参考スコア(独自算出の注目度): 54.48710348910535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing medical reasoning benchmarks for vision-language models primarily focus on analyzing a patient's condition based on an image from a single visit. However, this setting deviates significantly from real-world clinical practice, where doctors typically refer to a patient's historical conditions to provide a comprehensive assessment by tracking their changes over time. In this paper, we introduce TemMed-Bench, the first benchmark designed for analyzing changes in patients' conditions between different clinical visits, which challenges large vision-language models (LVLMs) to reason over temporal medical images. TemMed-Bench consists of a test set comprising three tasks - visual question-answering (VQA), report generation, and image-pair selection - and a supplementary knowledge corpus of over 17,000 instances. With TemMed-Bench, we conduct an evaluation of six proprietary and six open-source LVLMs. Our results show that most LVLMs lack the ability to analyze patients' condition changes over temporal medical images, and a large proportion perform only at a random-guessing level in the closed-book setting. In contrast, GPT o3, o4-mini and Claude 3.5 Sonnet demonstrate comparatively decent performance, though they have yet to reach the desired level. Furthermore, we explore augmenting the input with both retrieved visual and textual modalities in the medical domain. We also show that multi-modal retrieval augmentation yields notably higher performance gains than no retrieval and textual retrieval alone across most models on our benchmark, with the VQA task showing an average improvement of 2.59%. Overall, we compose a benchmark grounded on real-world clinical practice, and it reveals LVLMs' limitations in temporal medical image reasoning, as well as highlighting the use of multi-modal retrieval augmentation as a potentially promising direction worth exploring to address this challenge.
- Abstract(参考訳): 既存の医用推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
しかし、この設定は、医師が患者の歴史的状態を参照して、経時的に変化を追跡することで包括的評価を提供する、実際の臨床実践とは大きく異なる。
本稿では,臨床訪問における患者状況の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
TemMed-Benchは、視覚的質問回答(VQA)、レポート生成、イメージペア選択という3つのタスクと、17,000以上のインスタンスからなる補助的知識コーパスからなるテストセットで構成されている。
TemMed-Benchでは、6つのプロプライエタリおよび6つのオープンソースLVLMの評価を行う。
以上の結果から,ほとんどのLVLMは時間的医療画像上での患者の状態変化を解析する能力に欠けており,クローズドブック設定ではランダムゲスティングレベルにのみ大きな割合で機能することが示唆された。
対照的に、GPT o3、o4-mini、Claude 3.5 Sonnetは、望ましいレベルには達していないものの、比較的まともなパフォーマンスを示している。
さらに,検索した医用領域における視覚的・テキスト的モダリティの両面でのインプットの増強について検討した。
また,VQAタスクでは平均2.59%の改善がみられ,マルチモーダル検索の高速化により,検索やテキスト検索を行なわない場合よりも高い性能向上が得られた。
全体として、実世界の臨床実践に基づくベンチマークを作成し、LVLMsの時間的医用画像推論の限界を明らかにするとともに、この課題に対処する上で有望な方向としてマルチモーダル検索拡張の使用を強調した。
関連論文リスト
- How Far Have Medical Vision-Language Models Come? A Comprehensive Benchmarking Study [16.84832179579428]
VLM(Vision-Language Models)は、Webスケールのコーパスを訓練し、自然画像のタスクに優れ、医療に利用されつつある。
本稿では,8つのベンチマークを用いて,オープンソース汎用および医療専門のVLMの総合評価を行う。
まず、大規模な汎用モデルは、いくつかのベンチマークで、すでに医学固有のモデルと一致しているか、あるいは超えている。
第二に、推論のパフォーマンスは理解よりも一貫して低く、安全な意思決定支援にとって重要な障壁を強調します。
論文 参考訳(メタデータ) (2025-07-15T11:12:39Z) - DrVD-Bench: Do Vision-Language Models Reason Like Human Doctors in Medical Image Diagnosis? [1.1094764204428438]
臨床ビジュアル推論のための最初のベンチマークであるDrVD-Benchを提案する。
DrVD-Benchは、ビジュアルエビデンス、推論軌道評価、レポート生成評価の3つのモジュールで構成されている。
本ベンチマークでは,20のタスクタイプ,17の診断カテゴリ,CT,MRI,超音波,X線撮影,病理の5つの画像モダリティについて検討した。
論文 参考訳(メタデータ) (2025-05-30T03:33:25Z) - Medical Large Vision Language Models with Multi-Image Visual Ability [46.889345205047675]
83.2Kの医療用マルチイメージQAペアからなるMed-MIM命令データセットを提案する。
我々は,マンティスとLLaVA-Medを微調整し,MIM-LLaVA-MedとMed-Mantisの2種類の専門医用VLMを作製した。
また,LVLMの医用マルチイメージ理解能力を評価するために,Med-MIMベンチマークを開発した。
論文 参考訳(メタデータ) (2025-05-25T08:31:22Z) - ZALM3: Zero-Shot Enhancement of Vision-Language Alignment via In-Context Information in Multi-Turn Multimodal Medical Dialogue [25.398370966763597]
オンライン医療相談のシナリオでは、医師は患者が複数のラウンドで提供したテキストや画像に反応し、健康状態の診断を行う。
従来の医療用視覚質問応答 (Med-VQA) において, 専門機器が取得した高品質な画像とは違って, 症例内の画像は患者の携帯電話で撮影される。
マルチターンマルチモーダル医療対話における視覚言語アライメントを改善するゼロショット戦略であるZALM3を提案する。
論文 参考訳(メタデータ) (2024-09-26T07:55:57Z) - FedMedICL: Towards Holistic Evaluation of Distribution Shifts in Federated Medical Imaging [68.6715007665896]
FedMedICLは統合されたフレームワークであり、フェデレートされた医療画像の課題を全体評価するためのベンチマークである。
6種類の医用画像データセットについて,いくつかの一般的な手法を総合的に評価した。
単純なバッチ分散手法はFedMedICL実験全体の平均性能において,高度な手法を超越していることがわかった。
論文 参考訳(メタデータ) (2024-07-11T19:12:23Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。