論文の概要: OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for
Medical LVLM
- arxiv url: http://arxiv.org/abs/2402.09181v1
- Date: Wed, 14 Feb 2024 13:51:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 15:21:40.631397
- Title: OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for
Medical LVLM
- Title(参考訳): OmniMedVQA:医療用LVLMのための大規模総合評価ベンチマーク
- Authors: Yutao Hu, Tianbin Li, Quanfeng Lu, Wenqi Shao, Junjun He, Yu Qiao,
Ping Luo
- Abstract要約: 我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
- 参考スコア(独自算出の注目度): 50.58232769384052
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large Vision-Language Models (LVLMs) have demonstrated remarkable
capabilities in various multimodal tasks. However, their potential in the
medical domain remains largely unexplored. A significant challenge arises from
the scarcity of diverse medical images spanning various modalities and
anatomical regions, which is essential in real-world medical applications. To
solve this problem, in this paper, we introduce OmniMedVQA, a novel
comprehensive medical Visual Question Answering (VQA) benchmark. This benchmark
is collected from 75 different medical datasets, including 12 different
modalities and covering more than 20 distinct anatomical regions. Importantly,
all images in this benchmark are sourced from authentic medical scenarios,
ensuring alignment with the requirements of the medical field and suitability
for evaluating LVLMs. Through our extensive experiments, we have found that
existing LVLMs struggle to address these medical VQA problems effectively.
Moreover, what surprises us is that medical-specialized LVLMs even exhibit
inferior performance to those general-domain models, calling for a more
versatile and robust LVLM in the biomedical field. The evaluation results not
only reveal the current limitations of LVLM in understanding real medical
images but also highlight our dataset's significance. Our dataset will be made
publicly available.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な機能を示す。
しかし、医療分野におけるその可能性はほとんど未解明のままである。
重要な課題は、様々な形態や解剖学的領域にまたがる多様な医療画像が不足していることである。
この問題を解決するために,本論文では,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークは75の異なる医学データセットから収集され、12の異なるモードと20以上の解剖学的領域をカバーする。
重要なことに、このベンチマークのすべての画像は、医療分野の要件とlvlmsの評価に適合するように、本物の医療シナリオから導き出されています。
大規模な実験により,既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
さらに、医療専門のLVLMは、これらの一般ドメインモデルよりも性能が劣り、バイオメディカル分野においてより汎用的で堅牢なLVLMを要求される。
評価結果から,lvlmの医療画像理解における限界が明らかにされるだけでなく,データセットの意義も明らかにされた。
私たちのデータセットは公開されます。
関連論文リスト
- RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question
Answering and Clinical Reasoning [14.366349078707263]
RJUA-MedDQAは医学専門分野における総合的なベンチマークである。
本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
論文 参考訳(メタデータ) (2024-02-19T06:57:02Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - Free Form Medical Visual Question Answering in Radiology [3.495246564946556]
医療用ビジュアル質問回答の研究は、2018年以来、勢いを増している。
本研究は,放射線画像の効果的表現とマルチモーダル表現の連成学習について考察する。
我々のモデルは、より複雑なアーキテクチャでトップ1の精度79.55%を実現し、現在の最先端モデルに匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-01-23T20:26:52Z) - Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。
OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。
本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文 参考訳(メタデータ) (2023-07-27T20:36:02Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Path to Medical AGI: Unify Domain-specific Medical LLMs with the Lowest
Cost [18.4295882376915]
医療人工知能(英語版) (AGI) は、幅広いタスクや領域において知識を理解し、学習し、適用できるシステムを開発することを目的としている。
大規模言語モデル(LLM)は、AGIに向けた重要なステップである。
ドメイン固有の医療用LLMを低コストで統一するためのパラダイムであるメディカルAGI(MedAGI)を提案する。
論文 参考訳(メタデータ) (2023-06-19T08:15:14Z) - Towards Expert-Level Medical Question Answering with Large Language
Models [16.882775912583355]
大規模言語モデル (LLMs) は医学的質問応答において大きな進歩をもたらした。
ここでは、基礎改善(PaLM2)、医療領域の細かな改善、戦略の推進を組み合わせ、ギャップを埋めるMedPaLM 2を提案する。
また, MedMC-ofQA, PubMed, MMLUの臨床トピックスデータセットに近づいたり, 最先端に近づいたりした。
論文 参考訳(メタデータ) (2023-05-16T17:11:29Z) - Federated Learning Enables Big Data for Rare Cancer Boundary Detection [98.5549882883963]
6大陸にわたる71の医療機関のデータを含む,これまでで最大のフェデレーテッドML研究の結果を報告する。
グリオ芽腫の稀な疾患に対する腫瘍境界自動検出装置を作製した。
当科では, 外科的に標的とした腫瘍の悪性度を高めるために, 33%の改善率を示し, 腫瘍全体に対する23%の改善率を示した。
論文 参考訳(メタデータ) (2022-04-22T17:27:00Z) - Cross-Modal Information Maximization for Medical Imaging: CMIM [62.28852442561818]
病院では、同じ情報を異なるモダリティの下で利用できるようにする特定の情報システムにデータがサイロ化される。
これは、テスト時に常に利用できないかもしれない同じ情報の複数のビューを列車で取得し、使用するためのユニークな機会を提供する。
テスト時にモダリティの低下に耐性を持つマルチモーダル入力の優れた表現を学習することで、利用可能なデータを最大限活用する革新的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T20:05:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。