Fugu-MT 論文翻訳(概要): RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question Answering and Clinical Reasoning

論文の概要: RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question Answering and Clinical Reasoning

arxiv url: http://arxiv.org/abs/2402.14840v1
Date: Mon, 19 Feb 2024 06:57:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-03 19:39:16.904448
Title: RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question Answering and Clinical Reasoning
Title（参考訳）: RJUA-MedDQA: 医療文書質問応答と臨床推論のためのマルチモーダルベンチマーク
Authors: Congyun Jin, Ming Zhang, Xiaowei Ma, Li Yujiao, Yingbo Wang, Yabo Jia, Yuliang Du, Tao Sun, Haowen Wang, Cong Fan, Jinjie Gu, Chenfei Chi, Xiangguo Lv, Fangzhou Li, Wei Xue, Yiran Huang
Abstract要約: RJUA-MedDQAは医学専門分野における総合的なベンチマークである。本稿では医学専門分野の総合的なベンチマークであるRJUA-MedDQAを紹介する。
参考スコア（独自算出の注目度）: 14.366349078707263
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in Large Language Models (LLMs) and Large Multi-modal Models (LMMs) have shown potential in various medical applications, such as Intelligent Medical Diagnosis. Although impressive results have been achieved, we find that existing benchmarks do not reflect the complexity of real medical reports and specialized in-depth reasoning capabilities. In this work, we introduced RJUA-MedDQA, a comprehensive benchmark in the field of medical specialization, which poses several challenges: comprehensively interpreting imgage content across diverse challenging layouts, possessing numerical reasoning ability to identify abnormal indicators and demonstrating clinical reasoning ability to provide statements of disease diagnosis, status and advice based on medical contexts. We carefully design the data generation pipeline and proposed the Efficient Structural Restoration Annotation (ESRA) Method, aimed at restoring textual and tabular content in medical report images. This method substantially enhances annotation efficiency, doubling the productivity of each annotator, and yields a 26.8% improvement in accuracy. We conduct extensive evaluations, including few-shot assessments of 5 LMMs which are capable of solving Chinese medical QA tasks. To further investigate the limitations and potential of current LMMs, we conduct comparative experiments on a set of strong LLMs by using image-text generated by ESRA method. We report the performance of baselines and offer several observations: (1) The overall performance of existing LMMs is still limited; however LMMs more robust to low-quality and diverse-structured images compared to LLMs. (3) Reasoning across context and image content present significant challenges. We hope this benchmark helps the community make progress on these challenging tasks in multi-modal medical document understanding and facilitate its application in healthcare.
Abstract（参考訳）: 近年のLLM(Large Language Models)やLMM(Large Multi-modal Models)の進歩は、インテリジェント医療診断など、様々な医学的応用に可能性を示している。優れた結果が得られたが、既存のベンチマークでは、実際の医療報告の複雑さや詳細な推論能力が反映されていない。本稿では,医療専門分野における包括的ベンチマークであるrjua-meddqaについて紹介する。多種多様な課題レイアウトにわたるicgageコンテンツの包括的解釈,異常指標を識別する数値推論能力,医療状況に基づく疾患診断,状態,アドバイスのステートメントを提供する臨床推論能力を示す。我々は,データ生成パイプラインを慎重に設計し,医療報告画像中のテキストや表の内容を復元することを目的としたESRA(Efficient Structure Restoration Annotation)法を提案する。この方法は、アノテーション効率を大幅に向上し、各アノテータの生産性を2倍にし、精度が26.8%向上する。われわれは,中国のQA課題を解決できる5つのLMMの少数評価を含む,広範な評価を行っている。本研究では,現在のLMMの限界と可能性について,ESRA法により生成された画像テキストを用いて比較実験を行った。 1) 既存のLMMの全体的な性能はまだ限られているが、LMMはLLMに比べて低品質で多彩な画像に対してより堅牢である。 3) コンテキストと画像コンテンツ間の推論には大きな課題がある。このベンチマークが、マルチモーダル医療文書理解におけるこれらの困難なタスクの進捗をコミュニティが支援し、医療への応用を促進することを願っています。

関連論文リスト

MAM: Modular Multi-Agent Framework for Multi-Modal Medical Diagnosis via Role-Specialized Collaboration [57.98393950821579]
マルチモーダル医療診断のためのモジュール型マルチエージェントフレームワーク(MAM)について紹介する。我々の経験的発見に触発されて、MAMは医療診断プロセスを、一般実践者、スペシャリストチーム、放射線科医、医療助手、ディレクターの専門的な役割に分解する。このモジュール的で協調的なフレームワークは、効率的な知識更新を可能にし、既存の医療用LLMと知識ベースを活用する。
論文参考訳（メタデータ） (2025-06-24T17:52:43Z)
Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning [57.873833577058]
医療知識の豊富なマルチモーダルデータセットを構築した。次に医学専門のMLLMであるLingshuを紹介します。 Lingshuは、医療専門知識の組み込みとタスク解決能力の向上のために、マルチステージトレーニングを行っている。
論文参考訳（メタデータ） (2025-06-08T08:47:30Z)
Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。本稿では,構造化医療推論を利用した新しいアプローチを提案する。我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文参考訳（メタデータ） (2025-03-05T05:24:55Z)
ClinKD: Cross-Modal Clinical Knowledge Distiller For Multi-Task Medical Images [4.353855760968461]
画像テキストアライメントを強化し、より効果的な医療知識適応機構を確立するために設計されたクロスモーダル臨床知識ディストラクタ(ClinKD)。 ClinKDは、微細なマルチタスクQAペアを含む挑戦的な医療ベンチマークであるMed-GRIT-270kデータセット上で、最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-02-09T15:08:10Z)
LLM-MedQA: Enhancing Medical Question Answering through Case Studies in Large Language Models [18.6994780408699]
大規模言語モデル (LLM) は、医学的質問応答において重大な課題に直面している。マルチエージェント医療質問応答システムに類似の事例生成を取り入れた新しい手法を提案する。本手法は, モデル固有の医療知識と推論能力を活用し, 追加のトレーニングデータの必要性を解消する。
論文参考訳（メタデータ） (2024-12-31T19:55:45Z)
A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。本稿では,MVLMの概要と適用した各種医療課題について概観する。また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文参考訳（メタデータ） (2024-11-19T03:27:05Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。本研究は,幻覚に対する2つの重要な要因を明らかにした。私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文参考訳（メタデータ） (2024-10-16T17:59:02Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
MedExQA: Medical Question Answering Benchmark with Multiple Explanations [2.2246416434538308]
本稿では,MedExQAについて紹介する。MedExQAは,医学的知識に関する大規模言語モデル (LLM) の理解を説明を通じて評価するための,医学的質問応答の新しいベンチマークである。 5つの異なる医療専門分野のデータセットを構築することで、現在の医療QAベンチマークの大きなギャップに対処する。本研究は、医学LLMにおける説明可能性の重要性を強調し、分類精度以上のモデルを評価する効果的な方法論を提案し、特定の分野である音声言語病理学に光を当てる。
論文参考訳（メタデータ） (2024-06-10T14:47:04Z)
MultifacetEval: Multifaceted Evaluation to Probe LLMs in Mastering Medical Knowledge [4.8004472307210255]
大規模言語モデル (LLMs) はドメイン間で優れており、医療評価ベンチマークで顕著なパフォーマンスを提供している。しかし、実際の医療シナリオにおける報告されたパフォーマンスと実践的効果の間には、依然として大きなギャップがある。医療知識のエンコーディングと習得におけるLLMの程度と範囲を検討するための,新しい評価フレームワークであるMultifacetEvalを開発した。
論文参考訳（メタデータ） (2024-06-05T04:15:07Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM [48.16696073640864]
我々は,新しい包括的ビジュアル質問回答(VQA)ベンチマークであるOmniMedVQAを紹介する。このベンチマークのすべての画像は、本物の医療シナリオから得られたものです。既存のLVLMはこれらの医療用VQA問題に効果的に取り組むのに苦労していることがわかった。
論文参考訳（メタデータ） (2024-02-14T13:51:56Z)
MedLM: Exploring Language Models for Medical Question Answering Systems [2.84801080855027]
大きな言語モデル(LLM)とその高度な生成能力は、様々なNLPタスクにおいて有望であることを示している。本研究の目的は,医療用Q&Aにおける一般用および医療用蒸留機の性能を比較することである。この知見は、医学領域における特定の用途における異なるLMの適合性に関する貴重な知見を提供する。
論文参考訳（メタデータ） (2024-01-21T03:37:47Z)
Large Language Models Illuminate a Progressive Pathway to Artificial Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。本稿では,医学におけるLSMの応用と意義について概説する。
論文参考訳（メタデータ） (2023-11-03T13:51:36Z)
An Automatic Evaluation Framework for Multi-turn Medical Consultations Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-05T09:24:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。