論文の概要: RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question
Answering and Clinical Reasoning
- arxiv url: http://arxiv.org/abs/2402.14840v1
- Date: Mon, 19 Feb 2024 06:57:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-03 19:39:16.904448
- Title: RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question
Answering and Clinical Reasoning
- Title(参考訳): RJUA-MedDQA: 医療文書質問応答と臨床推論のためのマルチモーダルベンチマーク
- Authors: Congyun Jin, Ming Zhang, Xiaowei Ma, Li Yujiao, Yingbo Wang, Yabo Jia,
Yuliang Du, Tao Sun, Haowen Wang, Cong Fan, Jinjie Gu, Chenfei Chi, Xiangguo
Lv, Fangzhou Li, Wei Xue, Yiran Huang
- Abstract要約: RJUA-MedDQAは医学専門分野における総合的なベンチマークである。
本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
- 参考スコア(独自算出の注目度): 14.366349078707263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) and Large Multi-modal
Models (LMMs) have shown potential in various medical applications, such as
Intelligent Medical Diagnosis. Although impressive results have been achieved,
we find that existing benchmarks do not reflect the complexity of real medical
reports and specialized in-depth reasoning capabilities. In this work, we
introduced RJUA-MedDQA, a comprehensive benchmark in the field of medical
specialization, which poses several challenges: comprehensively interpreting
imgage content across diverse challenging layouts, possessing numerical
reasoning ability to identify abnormal indicators and demonstrating clinical
reasoning ability to provide statements of disease diagnosis, status and advice
based on medical contexts. We carefully design the data generation pipeline and
proposed the Efficient Structural Restoration Annotation (ESRA) Method, aimed
at restoring textual and tabular content in medical report images. This method
substantially enhances annotation efficiency, doubling the productivity of each
annotator, and yields a 26.8% improvement in accuracy. We conduct extensive
evaluations, including few-shot assessments of 5 LMMs which are capable of
solving Chinese medical QA tasks. To further investigate the limitations and
potential of current LMMs, we conduct comparative experiments on a set of
strong LLMs by using image-text generated by ESRA method. We report the
performance of baselines and offer several observations: (1) The overall
performance of existing LMMs is still limited; however LMMs more robust to
low-quality and diverse-structured images compared to LLMs. (3) Reasoning
across context and image content present significant challenges. We hope this
benchmark helps the community make progress on these challenging tasks in
multi-modal medical document understanding and facilitate its application in
healthcare.
- Abstract(参考訳): 近年のLLM(Large Language Models)やLMM(Large Multi-modal Models)の進歩は、インテリジェント医療診断など、様々な医学的応用に可能性を示している。
優れた結果が得られたが、既存のベンチマークでは、実際の医療報告の複雑さや詳細な推論能力が反映されていない。
本稿では,医療専門分野における包括的ベンチマークであるrjua-meddqaについて紹介する。多種多様な課題レイアウトにわたるicgageコンテンツの包括的解釈,異常指標を識別する数値推論能力,医療状況に基づく疾患診断,状態,アドバイスのステートメントを提供する臨床推論能力を示す。
我々は,データ生成パイプラインを慎重に設計し,医療報告画像中のテキストや表の内容を復元することを目的としたESRA(Efficient Structure Restoration Annotation)法を提案する。
この方法は、アノテーション効率を大幅に向上し、各アノテータの生産性を2倍にし、精度が26.8%向上する。
われわれは,中国のQA課題を解決できる5つのLMMの少数評価を含む,広範な評価を行っている。
本研究では,現在のLMMの限界と可能性について,ESRA法により生成された画像テキストを用いて比較実験を行った。
1) 既存のLMMの全体的な性能はまだ限られているが、LMMはLLMに比べて低品質で多彩な画像に対してより堅牢である。
3) コンテキストと画像コンテンツ間の推論には大きな課題がある。
このベンチマークが、マルチモーダル医療文書理解におけるこれらの困難なタスクの進捗をコミュニティが支援し、医療への応用を促進することを願っています。
関連論文リスト
- A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。
本研究は,幻覚に対する2つの重要な要因を明らかにした。
私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文 参考訳(メタデータ) (2024-10-16T17:59:02Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - MedExQA: Medical Question Answering Benchmark with Multiple Explanations [2.2246416434538308]
本稿では,MedExQAについて紹介する。MedExQAは,医学的知識に関する大規模言語モデル (LLM) の理解を説明を通じて評価するための,医学的質問応答の新しいベンチマークである。
5つの異なる医療専門分野のデータセットを構築することで、現在の医療QAベンチマークの大きなギャップに対処する。
本研究は、医学LLMにおける説明可能性の重要性を強調し、分類精度以上のモデルを評価する効果的な方法論を提案し、特定の分野である音声言語病理学に光を当てる。
論文 参考訳(メタデータ) (2024-06-10T14:47:04Z) - MultifacetEval: Multifaceted Evaluation to Probe LLMs in Mastering Medical Knowledge [4.8004472307210255]
大規模言語モデル (LLMs) はドメイン間で優れており、医療評価ベンチマークで顕著なパフォーマンスを提供している。
しかし、実際の医療シナリオにおける報告されたパフォーマンスと実践的効果の間には、依然として大きなギャップがある。
医療知識のエンコーディングと習得におけるLLMの程度と範囲を検討するための,新しい評価フレームワークであるMultifacetEvalを開発した。
論文 参考訳(メタデータ) (2024-06-05T04:15:07Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。
このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。
既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文 参考訳(メタデータ) (2024-02-14T13:51:56Z) - MedLM: Exploring Language Models for Medical Question Answering Systems [2.84801080855027]
大きな言語モデル(LLM)とその高度な生成能力は、様々なNLPタスクにおいて有望であることを示している。
本研究の目的は,医療用Q&Aにおける一般用および医療用蒸留機の性能を比較することである。
この知見は、医学領域における特定の用途における異なるLMの適合性に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2024-01-21T03:37:47Z) - Large Language Models Illuminate a Progressive Pathway to Artificial
Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。
本稿では,医学におけるLSMの応用と意義について概説する。
論文 参考訳(メタデータ) (2023-11-03T13:51:36Z) - An Automatic Evaluation Framework for Multi-turn Medical Consultations
Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。
本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-05T09:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。