論文の概要: Building a Silver-Standard Dataset from NICE Guidelines for Clinical LLMs
- arxiv url: http://arxiv.org/abs/2511.01053v1
- Date: Sun, 02 Nov 2025 19:13:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.045074
- Title: Building a Silver-Standard Dataset from NICE Guidelines for Clinical LLMs
- Title(参考訳): 臨床LCMのためのNICEガイドラインに基づく銀標準データセットの構築
- Authors: Qing Ding, Eric Hua Qing Zhang, Felix Jozsa, Julia Ive,
- Abstract要約: 本研究は,複数の診断にまたがる公開ガイドラインから得られた検証データセットを提案する。
データセットはGPTの助けを借りて作成され、現実的な患者のシナリオと臨床的な質問を含む。
- 参考スコア(独自算出の注目度): 5.081034062303304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used in healthcare, yet standardised benchmarks for evaluating guideline-based clinical reasoning are missing. This study introduces a validated dataset derived from publicly available guidelines across multiple diagnoses. The dataset was created with the help of GPT and contains realistic patient scenarios, as well as clinical questions. We benchmark a range of recent popular LLMs to showcase the validity of our dataset. The framework supports systematic evaluation of LLMs' clinical utility and guideline adherence.
- Abstract(参考訳): 大規模言語モデル (LLMs) は医療でますます使われているが、ガイドラインに基づく臨床推論を評価するための標準ベンチマークは欠落している。
本研究は,複数の診断にまたがる公開ガイドラインから得られた検証データセットを提案する。
データセットはGPTの助けを借りて作成され、現実的な患者のシナリオと臨床的な質問を含む。
我々は、我々のデータセットの有効性を示すために、最近人気の高いLCMをベンチマークする。
このフレームワークは、LSMsの臨床的有用性とガイドラインの順守の体系的評価をサポートする。
関連論文リスト
- Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - Cohort Discovery: A Survey on LLM-Assisted Clinical Trial Recruitment [21.800829039344876]
我々は,臨床治験採用における臨床患者マッチングの課題を初めて分析し,新たなLCMベースのアプローチを文脈的に分析する。
既存のベンチマーク、アプローチ、評価フレームワークについて批判的に検討する。
論文 参考訳(メタデータ) (2025-06-18T09:32:16Z) - MedGUIDE: Benchmarking Clinical Decision-Making in Large Language Models [10.46932473088646]
MedGUIDEは,Large Language Models (LLMs) を評価するための新しいベンチマークであり,ガイドラインに一貫性のある臨床診断を行う能力について紹介する。
MedGUIDEは17種類の癌にまたがる55のNCCN決定木から構築されている。
本研究では,10の臨床的,言語学的基準において,専門家ラベル付き報酬モデルとLLM-as-a-judgeアンサンブルを組み合わせた2段階の品質選択プロセスを適用し,高品質なサンプル7,747を選定した。
論文 参考訳(メタデータ) (2025-05-16T18:21:52Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - Does Biomedical Training Lead to Better Medical Performance? [7.341724934479004]
大規模言語モデル(LLM)は、患者のケア、診断、管理プロセスに大きく貢献することが期待されている。
本研究では, バイオメディカルトレーニングが6つの実践的医療課題の文脈に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2024-04-05T12:51:37Z) - Large Language Models for Healthcare Data Augmentation: An Example on
Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。
本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文 参考訳(メタデータ) (2023-03-24T03:14:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。