論文の概要: RJUA-QA: A Comprehensive QA Dataset for Urology
- arxiv url: http://arxiv.org/abs/2312.09785v3
- Date: Sun, 7 Jan 2024 08:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 22:00:08.875492
- Title: RJUA-QA: A Comprehensive QA Dataset for Urology
- Title(参考訳): RJUA-QA: 尿路学のための総合的なQAデータセット
- Authors: Shiwei Lyu and Chenfei Chi and Hongbo Cai and Lei Shi and Xiaoyan Yang
and Lei Liu and Xiang Chen and Deng Zhao and Zhiqiang Zhang and Xianguo Lyu
and Ming Zhang and Fangzhou Li and Xiaowei Ma and Yue Shen and Jinjie Gu and
Wei Xue and Yiran Huang
- Abstract要約: RJUA-QAは、質問応答(QA)と臨床証拠の推論のための新しい医療データセットである。
このデータセットには2,132種類の質問-文脈-回答ペアが含まれており、約25,000の診断記録と臨床ケースに対応している。
- 参考スコア(独自算出の注目度): 20.688839472350505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce RJUA-QA, a novel medical dataset for question answering (QA) and
reasoning with clinical evidence, contributing to bridge the gap between
general large language models (LLMs) and medical-specific LLM applications.
RJUA-QA is derived from realistic clinical scenarios and aims to facilitate
LLMs in generating reliable diagnostic and advice. The dataset contains 2,132
curated Question-Context-Answer pairs, corresponding about 25,000 diagnostic
records and clinical cases. The dataset covers 67 common urological disease
categories, where the disease coverage exceeds 97.6\% of the population seeking
medical services in urology. Each data instance in RJUA-QA comprises: (1) a
question mirroring real patient to inquiry about clinical symptoms and medical
conditions, (2) a context including comprehensive expert knowledge, serving as
a reference for medical examination and diagnosis, (3) a doctor response
offering the diagnostic conclusion and suggested examination guidance, (4) a
diagnosed clinical disease as the recommended diagnostic outcome, and (5)
clinical advice providing recommendations for medical examination. RJUA-QA is
the first medical QA dataset for clinical reasoning over the patient inquiries,
where expert-level knowledge and experience are required for yielding
diagnostic conclusions and medical examination advice. A comprehensive
evaluation is conducted to evaluate the performance of both medical-specific
and general LLMs on the RJUA-QA dataset. Our data is are publicly available at
\url{https://github.com/alipay/RJU_Ant_QA}.
- Abstract(参考訳): RJUA-QAは質問応答(QA)と臨床証拠の推論のための新しい医療データセットであり、一般的な大言語モデル(LLM)と医学固有のLLMアプリケーションとのギャップを埋めるのに寄与する。
RJUA-QAは、現実的な臨床シナリオから派生したもので、信頼性の高い診断とアドバイスを生成する上でLLMを促進することを目的としている。
データセットには2,132の質問-文脈-回答ペアが含まれており、およそ25,000の診断記録と臨床事例に対応している。
このデータセットは67の一般的な尿器科疾患カテゴリをカバーしており、尿器科の医療サービスを求める人口の97.6\%を超える。
RJUA-QAの各データインスタンスは、(1)臨床症状や医療状況に関する質問を実際の患者に反映し、(2)総合的な専門知識を含む文脈、(3)診断結論と推奨検査指針を提供する医師の回答、(4)診断された臨床疾患を推奨診断結果とする医師のアドバイス、(5)医学検査のための勧告を提供する臨床アドバイスを含む。
RJUA-QAは、患者に対する臨床推論のための最初の医学的QAデータセットであり、診断結論と医学的検査アドバイスを得るためには、専門家レベルの知識と経験が必要である。
RJUA-QAデータセットを用いて,医療用および一般用両方のLCMの性能評価を行う。
我々のデータは \url{https://github.com/alipay/RJU_Ant_QA} で公開されています。
関連論文リスト
- Clinical Evaluation of Medical Image Synthesis: A Case Study in Wireless Capsule Endoscopy [63.39037092484374]
本研究は,人工知能(AI)モデルを用いた医用合成データ生成の臨床評価に焦点を当てた。
本論文は,a) 医用専門家による合成画像の体系的評価のためのプロトコルを提示し,b) 高分解能WCE画像合成のための新しい変分オートエンコーダモデルであるTIDE-IIを評価する。
その結果、TIDE-IIは臨床的に関連性のあるWCE画像を生成し、データの不足に対処し、診断ツールの強化に役立つことがわかった。
論文 参考訳(メタデータ) (2024-10-31T19:48:50Z) - RealMedQA: A pilot biomedical question answering dataset containing realistic clinical questions [3.182594503527438]
本稿では,人間とLLMが生み出す現実的な臨床質問のデータセットであるRealMedQAを紹介する。
LLMは「理想的な」QAペアを生成するのに、よりコスト効率が高いことを示す。
論文 参考訳(メタデータ) (2024-08-16T09:32:43Z) - Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。
ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。
その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。
実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文 参考訳(メタデータ) (2024-08-15T21:09:09Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - DiReCT: Diagnostic Reasoning for Clinical Notes via Large Language Models [32.85606857702375]
本研究では,人間医師と比較して,大規模言語モデル(LLM)の推論能力と解釈可能性を評価することを目的とする。
臨床注記用診断推論データセット(DiReCT)は、511の臨床注記を含む。
論文 参考訳(メタデータ) (2024-08-04T05:15:02Z) - Automating PTSD Diagnostics in Clinical Interviews: Leveraging Large Language Models for Trauma Assessments [7.219693607724636]
我々は、ワークフローにカスタマイズされた大言語モデル(LLM)を統合することで、この不足に対処することを目指している。
臨床医が担当する診断面接411件を収集し,高品質なデータを得るための新しいアプローチを考案した。
インタビュー内容に基づいたPTSD診断評価を自動化するための総合的なフレームワークを構築した。
論文 参考訳(メタデータ) (2024-05-18T05:04:18Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions [19.436999992810797]
JAMAクリニカルチャレンジとメドブルレットという2つの新しいデータセットを構築した。
JAMAクリニカルチャレンジは、挑戦的な臨床ケースに基づく質問から成り、メドブルレットはシミュレートされた臨床質問から成り立っている。
各種のプロンプトを用いて2つのデータセット上で7つのLSMを評価する。
論文 参考訳(メタデータ) (2024-02-28T05:44:41Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - K-QA: A Real-World Medical Q&A Benchmark [12.636564634626422]
K-QA(K-QA)は、K Health上での実際の会話から発せられる1,212の患者質問を含むデータセットである。
我々は,K-QAのサブセットを自己完結文に分解するために,内科医のパネルを用いて回答し,手動で分解する。
我々は、いくつかの最先端モデルと、コンテキスト内学習と医学指向の拡張検索スキームの効果を評価した。
論文 参考訳(メタデータ) (2024-01-25T20:11:04Z) - Informing clinical assessment by contextualizing post-hoc explanations
of risk prediction models in type-2 diabetes [50.8044927215346]
本研究は, 合併症リスク予測のシナリオを考察し, 患者の臨床状態に関する文脈に焦点を当てる。
我々は、リスク予測モデル推論に関する文脈を提示し、その受容性を評価するために、最先端のLLMをいくつか採用する。
本論文は,実世界における臨床症例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。
論文 参考訳(メタデータ) (2023-02-11T18:07:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。