論文の概要: EchoQA: A Large Collection of Instruction Tuning Data for Echocardiogram Reports
- arxiv url: http://arxiv.org/abs/2503.02365v2
- Date: Thu, 06 Mar 2025 03:29:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 12:54:27.968755
- Title: EchoQA: A Large Collection of Instruction Tuning Data for Echocardiogram Reports
- Title(参考訳): EchoQA: エコー心電図レポートのためのインストラクションチューニングデータの大規模なコレクション
- Authors: Lama Moukheiber, Mira Moukheiber, Dana Moukheiiber, Jae-Woo Ju, Hyung-Chul Lee,
- Abstract要約: 集中治療のための医療情報マートから得られたエコー心電図を用いた質問応答(QA)データセットについて紹介する。
このデータセットは、心疾患とその重症度に対処する771,244のQAペアからなる、心疾患のQAシステムを強化するために特別に設計された。
我々は,ゼロショット評価のためのオープンソースおよびバイオメディカル固有モデル,ゼロショット評価のためのクローズソースモデルを含む大規模言語モデル(LLM)を比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a novel question-answering (QA) dataset using echocardiogram reports sourced from the Medical Information Mart for Intensive Care database. This dataset is specifically designed to enhance QA systems in cardiology, consisting of 771,244 QA pairs addressing a wide array of cardiac abnormalities and their severity. We compare large language models (LLMs), including open-source and biomedical-specific models for zero-shot evaluation, and closed-source models for zero-shot and three-shot evaluation. Our results show that fine-tuning LLMs improves performance across various QA metrics, validating the value of our dataset. Clinicians also qualitatively evaluate the best-performing model to assess the LLM responses for correctness. Further, we conduct fine-grained fairness audits to assess the bias-performance trade-off of LLMs across various social determinants of health. Our objective is to propel the field forward by establishing a benchmark for LLM AI agents aimed at supporting clinicians with cardiac differential diagnoses, thereby reducing the documentation burden that contributes to clinician burnout and enabling healthcare professionals to focus more on patient care.
- Abstract(参考訳): 集中治療のための医療情報マートから得られたエコー心電図を用いた質問応答(QA)データセットについて紹介する。
このデータセットは、心疾患とその重症度に対処する771,244のQAペアからなる、心疾患のQAシステムを強化するために特別に設計された。
我々は,ゼロショット評価のためのオープンソースおよびバイオメディカル固有モデル,ゼロショット評価のためのクローズソースモデルを含む大規模言語モデル(LLM)を比較した。
この結果から,微調整 LLM は,各種QA 測定値のパフォーマンスを向上し,データセットの価値を検証できることがわかった。
臨床医は、LCM応答の正確性を評価するための最良のパフォーマンスモデルも質的に評価した。
さらに, 健康の社会的要因間でのLCMのバイアス・パフォーマンストレードオフを評価するために, きめ細かい公正度監査を実施している。
我々の目的は,臨床医の心臓鑑別診断を支援することを目的としたLLMAIエージェントのベンチマークを確立することで,臨床医のバーンアウトに寄与するドキュメントの負担を軽減し,医療専門家が患者のケアにもっと注力できるようにすることによって,この分野を前進させることである。
関連論文リスト
- Performance of Large Language Models in Supporting Medical Diagnosis and Treatment [0.0]
AI駆動システムは、膨大なデータセットを分析し、臨床医が病気を特定し、治療を推奨し、患者の結果を予測するのを支援する。
本研究は,2024年のポルトガル国立試験場において,オープンソースモデルとクローズドソースモデルの両方を含む,現代LLMの性能評価を行った。
論文 参考訳(メタデータ) (2025-04-14T16:53:59Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - ASTRID -- An Automated and Scalable TRIaD for the Evaluation of RAG-based Clinical Question Answering Systems [0.0]
大言語モデル (LLMs) は, 臨床質問応答において有意な潜在性を示した。
RAGは、モデル応答の事実的正確性を保証するための主要なアプローチとして現れています。
現在のRAG自動測定は、臨床および会話のユースケースでは不十分である。
論文 参考訳(メタデータ) (2025-01-14T15:46:39Z) - Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - HealthQ: Unveiling Questioning Capabilities of LLM Chains in Healthcare Conversations [20.31796453890812]
HealthQは、医療会話における大規模言語モデル(LLM)の質問機能を評価するためのフレームワークである。
我々は LLM の判断を統合して, 具体性, 妥当性, 有用性など, 様々な指標を用いて, 生成した質問を評価する。
医療談話における質問機能評価のための最初の体系的枠組みを提示し、モデルに依存しない評価手法を確立し、高品質な質問をリンクして患者の情報引用を改善するための実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-09-28T23:59:46Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - EHRNoteQA: An LLM Benchmark for Real-World Clinical Practice Using Discharge Summaries [9.031182965159976]
大規模言語モデル(LLM)は、大規模で複雑なデータを効率的に分析する可能性を示している。
我々は,MIMIC-IV EHR上に構築された新しいベンチマークであるEHRNoteQAを紹介した。
EHRNoteQAには、複数の放電サマリーにまたがる情報を必要とし、実際の臨床検査の複雑さと多様性を反映した8つの多様なトピックをカバーする質問が含まれている。
論文 参考訳(メタデータ) (2024-02-25T09:41:50Z) - K-QA: A Real-World Medical Q&A Benchmark [12.636564634626422]
K-QA(K-QA)は、K Health上での実際の会話から発せられる1,212の患者質問を含むデータセットである。
我々は,K-QAのサブセットを自己完結文に分解するために,内科医のパネルを用いて回答し,手動で分解する。
我々は、いくつかの最先端モデルと、コンテキスト内学習と医学指向の拡張検索スキームの効果を評価した。
論文 参考訳(メタデータ) (2024-01-25T20:11:04Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z) - SPeC: A Soft Prompt-Based Calibration on Performance Variability of
Large Language Model in Clinical Notes Summarization [50.01382938451978]
本稿では,ソフトプロンプトを用いたモデルに依存しないパイプラインを導入し,確率に基づく要約の利点を保ちながら分散を減少させる。
実験結果から,本手法は性能を向上するだけでなく,様々な言語モデルの分散を効果的に抑制することが明らかとなった。
論文 参考訳(メタデータ) (2023-03-23T04:47:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。