Fugu-MT 論文翻訳(概要): OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM

論文の概要: OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM

arxiv url: http://arxiv.org/abs/2402.09181v2
Date: Sun, 21 Apr 2024 09:51:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 23:34:03.577717
Title: OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM
Title（参考訳）: OmniMedVQA:医療用LVLMのための大規模総合評価ベンチマーク
Authors: Yutao Hu, Tianbin Li, Quanfeng Lu, Wenqi Shao, Junjun He, Yu Qiao, Ping Luo,
Abstract要約: 我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
参考スコア（独自算出の注目度）: 48.16696073640864
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Large Vision-Language Models (LVLMs) have demonstrated remarkable capabilities in various multimodal tasks. However, their potential in the medical domain remains largely unexplored. A significant challenge arises from the scarcity of diverse medical images spanning various modalities and anatomical regions, which is essential in real-world medical applications. To solve this problem, in this paper, we introduce OmniMedVQA, a novel comprehensive medical Visual Question Answering (VQA) benchmark. This benchmark is collected from 73 different medical datasets, including 12 different modalities and covering more than 20 distinct anatomical regions. Importantly, all images in this benchmark are sourced from authentic medical scenarios, ensuring alignment with the requirements of the medical field and suitability for evaluating LVLMs. Through our extensive experiments, we have found that existing LVLMs struggle to address these medical VQA problems effectively. Moreover, what surprises us is that medical-specialized LVLMs even exhibit inferior performance to those general-domain models, calling for a more versatile and robust LVLM in the biomedical field. The evaluation results not only reveal the current limitations of LVLM in understanding real medical images but also highlight our dataset's significance. Our code with dataset are available at https://github.com/OpenGVLab/Multi-Modality-Arena.
Abstract（参考訳）: LVLM(Large Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な機能を示す。しかし、医学領域におけるその可能性はほとんど解明されていない。重要な課題は、様々なモダリティと解剖学的領域にまたがる多様な医療画像の不足から生じ、これは現実世界の医療応用に必須である。この問題を解決するために,本論文では,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。このベンチマークは、12の異なるモードを含む73の異なる医学データセットから収集され、20以上の解剖学的領域をカバーする。重要な点として、このベンチマークのすべての画像は、医療現場の要件に適合し、LVLMを評価するための適合性を確保する、真の医療シナリオから引き出されたものである。大規模な実験により,既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることが判明した。さらに、医療専門のLVLMは、これらの一般ドメインモデルよりも性能が劣り、バイオメディカル分野においてより汎用的で堅牢なLVLMを要求される。評価結果は、実際の医用画像の理解におけるLVLMの現在の限界だけでなく、データセットの重要性も浮き彫りにしている。データセットのコードはhttps://github.com/OpenGVLab/Multi-Modality-Arena.comで公開しています。

関連論文リスト

TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文参考訳（メタデータ） (2025-09-29T17:51:26Z)
Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。次に医学専門のMLLMであるLingshuを紹介します。 Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文参考訳（メタデータ） (2025-06-08T08:47:30Z)
Medical Large Vision Language Models with Multi-Image Visual Ability [46.889345205047675]
83.2Kの医療用マルチイメージQAペアからなるMed-MIM命令データセットを提案する。我々は,マンティスとLLaVA-Medを微調整し,MIM-LLaVA-MedとMed-Mantisの2種類の専門医用VLMを作製した。また,LVLMの医用マルチイメージ理解能力を評価するために,Med-MIMベンチマークを開発した。
論文参考訳（メタデータ） (2025-05-25T08:31:22Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
Training Medical Large Vision-Language Models with Abnormal-Aware Feedback [57.98393950821579]
本報告では,Unveiling Medicalnomaitiesを用いたUMed-LVLMを提案する。本稿では,GPT-4Vを用いた診断手法を提案する。実験の結果, UMed-LVLMは既存のMed-LVLMを上回り, 医学的異常を同定し, 理解していることがわかった。
論文参考訳（メタデータ） (2025-01-02T17:37:20Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
Parameter-Efficient Fine-Tuning Medical Multimodal Large Language Models for Medical Visual Grounding [9.144030136201476]
マルチモーダル大言語モデル(MLLM)は、LLMの優れたテキスト理解能力を継承し、これらの機能をマルチモーダルシナリオに拡張する。これらのモデルは、マルチモーダルタスクの一般領域において優れた結果をもたらす。しかし,医療分野では,医療用MLLMの開発に多大なトレーニングコストと広範な医療データを必要とすることが課題となっている。
論文参考訳（メタデータ） (2024-10-31T11:07:26Z)
MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。 Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文参考訳（メタデータ） (2024-10-16T23:03:27Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
MedVH: Towards Systematic Evaluation of Hallucination for Large Vision Language Models in the Medical Context [21.562034852024272]
LVLM(Large Vision Language Models)は、最近、自然画像やテキストデータにおける様々なタスクにおいて、優れたパフォーマンスを実現している。それらの進歩にもかかわらず、より小さなデータセットで微調整された場合の幻覚に対するこれらのモデルの堅牢性について、精査された研究がなされている。領域固有のLVLMの幻覚を評価するために,新しいベンチマークデータセットであるMedVH(MedVH)を導入する。
論文参考訳（メタデータ） (2024-07-03T00:59:03Z)
MultifacetEval: Multifaceted Evaluation to Probe LLMs in Mastering Medical Knowledge [4.8004472307210255]
大規模言語モデル (LLMs) はドメイン間で優れており、医療評価ベンチマークで顕著なパフォーマンスを提供している。しかし、実際の医療シナリオにおける報告されたパフォーマンスと実践的効果の間には、依然として大きなギャップがある。医療知識のエンコーディングと習得におけるLLMの程度と範囲を検討するための,新しい評価フレームワークであるMultifacetEvalを開発した。
論文参考訳（メタデータ） (2024-06-05T04:15:07Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
Med-Flamingo: a Multimodal Medical Few-shot Learner [58.85676013818811]
医療領域に適応したマルチモーダル・数ショット学習者であるMed-Flamingoを提案する。 OpenFlamingo-9Bに基づいて、出版物や教科書からの医療画像テキストデータのペア化とインターリーブ化を継続する。本研究は,医療用VQA(ジェネレーティブ医療用VQA)の最初の人間評価である。
論文参考訳（メタデータ） (2023-07-27T20:36:02Z)
Path to Medical AGI: Unify Domain-specific Medical LLMs with the Lowest Cost [18.4295882376915]
医療人工知能(英語版) (AGI) は、幅広いタスクや領域において知識を理解し、学習し、適用できるシステムを開発することを目的としている。大規模言語モデル(LLM)は、AGIに向けた重要なステップである。ドメイン固有の医療用LLMを低コストで統一するためのパラダイムであるメディカルAGI(MedAGI)を提案する。
論文参考訳（メタデータ） (2023-06-19T08:15:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。