論文の概要: Localizing Before Answering: A Benchmark for Grounded Medical Visual Question Answering
- arxiv url: http://arxiv.org/abs/2505.00744v1
- Date: Wed, 30 Apr 2025 07:57:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.766138
- Title: Localizing Before Answering: A Benchmark for Grounded Medical Visual Question Answering
- Title(参考訳): 回答を前倒しする:接地型ビジュアル質問回答のベンチマーク
- Authors: Dung Nguyen, Minh Khoi Ho, Huy Ta, Thanh Tam Nguyen, Qi Chen, Kumar Rav, Quy Duong Dang, Satwik Ramchandre, Son Lam Phung, Zhibin Liao, Minh-Son To, Johan Verjans, Phi Le Nguyen, Vu Minh Hieu Phan,
- Abstract要約: LMMのローカライズ能力とロバスト性を評価するためのベンチマークであるHEAL-MedVQAを紹介する。
そこで本研究では,LMMが関心のある対象領域をローカライズするためのLobA(Lobize-before-Answer)フレームワークを提案する。
実験の結果, HEAL-MedVQA ベンチマークでは, バイオメディカル LMM よりも有意に優れていた。
- 参考スコア(独自算出の注目度): 18.43222146132849
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Medical Large Multi-modal Models (LMMs) have demonstrated remarkable capabilities in medical data interpretation. However, these models frequently generate hallucinations contradicting source evidence, particularly due to inadequate localization reasoning. This work reveals a critical limitation in current medical LMMs: instead of analyzing relevant pathological regions, they often rely on linguistic patterns or attend to irrelevant image areas when responding to disease-related queries. To address this, we introduce HEAL-MedVQA (Hallucination Evaluation via Localization MedVQA), a comprehensive benchmark designed to evaluate LMMs' localization abilities and hallucination robustness. HEAL-MedVQA features (i) two innovative evaluation protocols to assess visual and textual shortcut learning, and (ii) a dataset of 67K VQA pairs, with doctor-annotated anatomical segmentation masks for pathological regions. To improve visual reasoning, we propose the Localize-before-Answer (LobA) framework, which trains LMMs to localize target regions of interest and self-prompt to emphasize segmented pathological areas, generating grounded and reliable answers. Experimental results demonstrate that our approach significantly outperforms state-of-the-art biomedical LMMs on the challenging HEAL-MedVQA benchmark, advancing robustness in medical VQA.
- Abstract(参考訳): 医療用大規模マルチモーダルモデル(LMM)は,医療データ解釈において顕著な機能を示した。
しかし、これらのモデルは、特に不適切な局所化推論のために、情報源の証拠と矛盾する幻覚をしばしば生成する。
この研究は、現在の医療用LMMにおいて重要な限界を明らかにしており、関連する病理領域を解析する代わりに、言語パターンに依存したり、疾患関連クエリに応答する際には、無関係の画像領域に出席することが多い。
そこで我々は,LMMの局所化能力と幻覚の堅牢性を評価するための総合的なベンチマークであるHEAL-MedVQA(Hallucination Evaluation via Localization MedVQA)を紹介する。
HEAL-MedVQA の機能
(i)視覚的・テキスト的ショートカット学習を評価するための2つの革新的な評価プロトコル、及び
(i)67KVQAペアのデータセットで,病理領域の解剖学的分類用マスクを医師に付与した。
視覚的推論を改善するために,LobA(Localize-before-Answer)フレームワークを提案する。
実験の結果,本手法はHEAL-MedVQAベンチマークにおいて最先端のバイオメディカルLMMより有意に優れ,医用VQAの堅牢性も向上することが示された。
関連論文リスト
- LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。
マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。
本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文 参考訳(メタデータ) (2024-12-31T19:55:45Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Worse than Random? An Embarrassingly Simple Probing Evaluation of Large Multimodal Models in Medical VQA [24.10436440624249]
大規模マルチモーダルモデル(LMM)は医療用視覚質問応答(Med-VQA)において顕著な進歩を示した
本研究は, 簡易な探索評価を行う場合, 医学的診断問題に対するランダムな推測よりも, 最先端のモデルの方が悪いことを明らかにした。
論文 参考訳(メタデータ) (2024-05-30T18:56:01Z) - RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question
Answering and Clinical Reasoning [14.366349078707263]
RJUA-MedDQAは医学専門分野における総合的なベンチマークである。
本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
論文 参考訳(メタデータ) (2024-02-19T06:57:02Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。