Fugu-MT 論文翻訳(概要): RJUA-QA: A Comprehensive QA Dataset for Urology

論文の概要: RJUA-QA: A Comprehensive QA Dataset for Urology

arxiv url: http://arxiv.org/abs/2312.09785v3
Date: Sun, 7 Jan 2024 08:58:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-09 22:00:08.875492
Title: RJUA-QA: A Comprehensive QA Dataset for Urology
Title（参考訳）: RJUA-QA: 尿路学のための総合的なQAデータセット
Authors: Shiwei Lyu and Chenfei Chi and Hongbo Cai and Lei Shi and Xiaoyan Yang and Lei Liu and Xiang Chen and Deng Zhao and Zhiqiang Zhang and Xianguo Lyu and Ming Zhang and Fangzhou Li and Xiaowei Ma and Yue Shen and Jinjie Gu and Wei Xue and Yiran Huang
Abstract要約: RJUA-QAは、質問応答(QA)と臨床証拠の推論のための新しい医療データセットである。このデータセットには2,132種類の質問-文脈-回答ペアが含まれており、約25,000の診断記録と臨床ケースに対応している。
参考スコア（独自算出の注目度）: 20.688839472350505
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce RJUA-QA, a novel medical dataset for question answering (QA) and reasoning with clinical evidence, contributing to bridge the gap between general large language models (LLMs) and medical-specific LLM applications. RJUA-QA is derived from realistic clinical scenarios and aims to facilitate LLMs in generating reliable diagnostic and advice. The dataset contains 2,132 curated Question-Context-Answer pairs, corresponding about 25,000 diagnostic records and clinical cases. The dataset covers 67 common urological disease categories, where the disease coverage exceeds 97.6\% of the population seeking medical services in urology. Each data instance in RJUA-QA comprises: (1) a question mirroring real patient to inquiry about clinical symptoms and medical conditions, (2) a context including comprehensive expert knowledge, serving as a reference for medical examination and diagnosis, (3) a doctor response offering the diagnostic conclusion and suggested examination guidance, (4) a diagnosed clinical disease as the recommended diagnostic outcome, and (5) clinical advice providing recommendations for medical examination. RJUA-QA is the first medical QA dataset for clinical reasoning over the patient inquiries, where expert-level knowledge and experience are required for yielding diagnostic conclusions and medical examination advice. A comprehensive evaluation is conducted to evaluate the performance of both medical-specific and general LLMs on the RJUA-QA dataset. Our data is are publicly available at \url{https://github.com/alipay/RJU_Ant_QA}.
Abstract（参考訳）: RJUA-QAは質問応答(QA)と臨床証拠の推論のための新しい医療データセットであり、一般的な大言語モデル(LLM)と医学固有のLLMアプリケーションとのギャップを埋めるのに寄与する。 RJUA-QAは、現実的な臨床シナリオから派生したもので、信頼性の高い診断とアドバイスを生成する上でLLMを促進することを目的としている。データセットには2,132の質問-文脈-回答ペアが含まれており、およそ25,000の診断記録と臨床事例に対応している。このデータセットは67の一般的な尿器科疾患カテゴリをカバーしており、尿器科の医療サービスを求める人口の97.6\%を超える。 RJUA-QAの各データインスタンスは、(1)臨床症状や医療状況に関する質問を実際の患者に反映し、(2)総合的な専門知識を含む文脈、(3)診断結論と推奨検査指針を提供する医師の回答、(4)診断された臨床疾患を推奨診断結果とする医師のアドバイス、(5)医学検査のための勧告を提供する臨床アドバイスを含む。 RJUA-QAは、患者に対する臨床推論のための最初の医学的QAデータセットであり、診断結論と医学的検査アドバイスを得るためには、専門家レベルの知識と経験が必要である。 RJUA-QAデータセットを用いて,医療用および一般用両方のLCMの性能評価を行う。我々のデータは \url{https://github.com/alipay/RJU_Ant_QA} で公開されています。

関連論文リスト

Barriers in Integrating Medical Visual Question Answering into Radiology Workflows: A Scoping Review and Clinicians' Insights [6.5907034989882725]
MedVQA (Medicical Visual Question Answering) は、医療画像の解釈を質問応答によって自動化し、放射線科医を支援するための有望なツールである。モデルやデータセットの進歩にもかかわらず、MedVQAの臨床システムへの統合は依然として限られている。本研究は,インドとタイから68の出版物と50人の臨床医を体系的にレビューし,MedVQAの実用性,課題,ギャップについて検討した。
論文参考訳（メタデータ） (2025-07-09T09:51:20Z)
An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [58.78045864541539]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。 DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文参考訳（メタデータ） (2025-06-25T13:42:26Z)
A Dataset for Addressing Patient's Information Needs related to Clinical Course of Hospitalization [15.837772594006038]
ArchEHR-QAは、集中治療室と救急部門の設定から現実の患者をベースとした、専門家による注釈付きデータセットである。症例は、公衆衛生フォーラムへの患者による質問、臨床医が解釈した質問、関連する臨床ノートの抜粋、および臨床医が認可した回答である。答えファーストのプロンプトアプローチは一貫して最善を尽くし、ラマ4は最高得点を獲得した。
論文参考訳（メタデータ） (2025-06-04T16:55:08Z)
MedCaseReasoning: Evaluating and learning diagnostic reasoning from clinical case reports [49.00805568780791]
MedCaseReasoningはLarge Language Models(LLM)を評価するための最初のオープンアクセスデータセットである。データセットには14,489の診断的質問・回答ケースが含まれており、それぞれに詳細な推論文がペアリングされている。我々は,MedCaseReasoning上での最先端の推論LPMを評価し,診断と推論に重大な欠点を見出した。
論文参考訳（メタデータ） (2025-05-16T22:34:36Z)
MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding [20.83722922095852]
MedXpertQAには17の専門分野と11の身体システムにまたがる4,460の質問が含まれている。 MMは、多様な画像と豊富な臨床情報を備えた専門家レベルの試験問題を導入する。
論文参考訳（メタデータ） (2025-01-30T14:07:56Z)
Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文参考訳（メタデータ） (2024-11-14T06:19:18Z)
Clinical Evaluation of Medical Image Synthesis: A Case Study in Wireless Capsule Endoscopy [63.39037092484374]
本研究は,人工知能(AI)モデルを用いた医用合成データ生成の臨床評価に焦点を当てた。本論文は,a) 医用専門家による合成画像の体系的評価のためのプロトコルを提示し,b) 高分解能WCE画像合成のための新しい変分オートエンコーダモデルであるTIDE-IIを評価する。その結果、TIDE-IIは臨床的に関連性のあるWCE画像を生成し、データの不足に対処し、診断ツールの強化に役立つことがわかった。
論文参考訳（メタデータ） (2024-10-31T19:48:50Z)
RealMedQA: A pilot biomedical question answering dataset containing realistic clinical questions [3.182594503527438]
本稿では,人間とLLMが生み出す現実的な臨床質問のデータセットであるRealMedQAを紹介する。 LLMは「理想的な」QAペアを生成するのに、よりコスト効率が高いことを示す。
論文参考訳（メタデータ） (2024-08-16T09:32:43Z)
Assessing and Enhancing Large Language Models in Rare Disease Question-answering [64.32570472692187]
本稿では,レアな疾患の診断におけるLarge Language Models (LLMs) の性能を評価するために,レアな疾患問合せデータセット(ReDis-QA)を導入する。 ReDis-QAデータセットでは1360の高品質な質問応答ペアを収集し,205の稀な疾患をカバーした。その後、いくつかのオープンソースのLCMをベンチマークし、希少疾患の診断がこれらのモデルにとって重要な課題であることを示した。実験の結果,ReCOPは,ReDis-QAデータセット上でのLCMの精度を平均8%向上できることがわかった。
論文参考訳（メタデータ） (2024-08-15T21:09:09Z)
GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。 GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。 38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文参考訳（メタデータ） (2024-08-06T17:59:21Z)
DiReCT: Diagnostic Reasoning for Clinical Notes via Large Language Models [32.85606857702375]
本研究では,人間医師と比較して,大規模言語モデル(LLM)の推論能力と解釈可能性を評価することを目的とする。臨床注記用診断推論データセット(DiReCT)は、511の臨床注記を含む。
論文参考訳（メタデータ） (2024-08-04T05:15:02Z)
Automating PTSD Diagnostics in Clinical Interviews: Leveraging Large Language Models for Trauma Assessments [7.219693607724636]
我々は、ワークフローにカスタマイズされた大言語モデル(LLM)を統合することで、この不足に対処することを目指している。臨床医が担当する診断面接411件を収集し,高品質なデータを得るための新しいアプローチを考案した。インタビュー内容に基づいたPTSD診断評価を自動化するための総合的なフレームワークを構築した。
論文参考訳（メタデータ） (2024-05-18T05:04:18Z)
Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文参考訳（メタデータ） (2024-04-25T15:51:06Z)
Benchmarking Large Language Models on Answering and Explaining Challenging Medical Questions [19.436999992810797]
JAMAクリニカルチャレンジとメドブルレットという2つの新しいデータセットを構築した。 JAMAクリニカルチャレンジは、挑戦的な臨床ケースに基づく質問から成り、メドブルレットはシミュレートされた臨床質問から成り立っている。各種のプロンプトを用いて2つのデータセット上で7つのLSMを評価する。
論文参考訳（メタデータ） (2024-02-28T05:44:41Z)
Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。 Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文参考訳（メタデータ） (2024-02-17T08:04:23Z)
K-QA: A Real-World Medical Q&A Benchmark [12.636564634626422]
K-QA(K-QA)は、K Health上での実際の会話から発せられる1,212の患者質問を含むデータセットである。我々は,K-QAのサブセットを自己完結文に分解するために,内科医のパネルを用いて回答し,手動で分解する。我々は、いくつかの最先端モデルと、コンテキスト内学習と医学指向の拡張検索スキームの効果を評価した。
論文参考訳（メタデータ） (2024-01-25T20:11:04Z)
Informing clinical assessment by contextualizing post-hoc explanations of risk prediction models in type-2 diabetes [50.8044927215346]
本研究は, 合併症リスク予測のシナリオを考察し, 患者の臨床状態に関する文脈に焦点を当てる。我々は、リスク予測モデル推論に関する文脈を提示し、その受容性を評価するために、最先端のLLMをいくつか採用する。本論文は,実世界における臨床症例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。
論文参考訳（メタデータ） (2023-02-11T18:07:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。