論文の概要: Building a Human-Verified Clinical Reasoning Dataset via a Human LLM Hybrid Pipeline for Trustworthy Medical AI
- arxiv url: http://arxiv.org/abs/2505.06912v1
- Date: Sun, 11 May 2025 09:17:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.107306
- Title: Building a Human-Verified Clinical Reasoning Dataset via a Human LLM Hybrid Pipeline for Trustworthy Medical AI
- Title(参考訳): 信頼できる医療AIのためのLLMハイブリッドパイプラインによる人間認証臨床推論データセットの構築
- Authors: Chao Ding, Mouxiao Bian, Pengcheng Chen, Hongliang Zhang, Tianbin Li, Lihao Liu, Jiayuan Chen, Zhuoran Li, Yabei Zhong, Yongqi Liu, Haiqing Huang, Dongming Shan, Junjun He, Jie Xu,
- Abstract要約: このデータセットには、31,247の医療質問応答ペアが含まれており、それぞれに専門家が検証したチェーン・オブ・シントの説明が添えられている。
複数の臨床領域にまたがるこのリソースは、スケーラブルなヒト-LLMハイブリッドパイプラインを介してキュレーションされた。
- 参考スコア(独自算出の注目度): 23.060879967642027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite strong performance in medical question-answering, the clinical adoption of Large Language Models (LLMs) is critically hampered by their opaque 'black-box' reasoning, limiting clinician trust. This challenge is compounded by the predominant reliance of current medical LLMs on corpora from scientific literature or synthetic data, which often lack the granular expert validation and high clinical relevance essential for advancing their specialized medical capabilities. To address these critical gaps, we introduce a highly clinically relevant dataset with 31,247 medical question-answer pairs, each accompanied by expert-validated chain-of-thought (CoT) explanations. This resource, spanning multiple clinical domains, was curated via a scalable human-LLM hybrid pipeline: LLM-generated rationales were iteratively reviewed, scored, and refined by medical experts against a structured rubric, with substandard outputs revised through human effort or guided LLM regeneration until expert consensus. This publicly available dataset provides a vital source for the development of medical LLMs that capable of transparent and verifiable reasoning, thereby advancing safer and more interpretable AI in medicine.
- Abstract(参考訳): 医学的質問応答の性能は高いが、Large Language Models (LLMs) の臨床導入は、不透明な「ブラックボックス」推論によって著しく妨げられ、臨床医の信頼が制限される。
この課題は、科学文献や合成データからのコーパスに対する現在の医療用LLMの依存度に大きく依存しているため、専門的な医療能力を向上させるために必要とされる、詳細な専門家の検証と高い臨床関連性が欠如していることが多い。
これらの重要なギャップに対処するために,31,247組の医療質問応答ペアを用いた,高度に臨床的に関連性の高いデータセットを導入し,それぞれに専門家検証チェーン・オブ・シント(CoT)の説明を添えた。
複数の臨床領域にまたがるこのリソースは、スケーラブルなヒト-LLMハイブリッドパイプラインによってキュレートされた: LLM生成の合理性は、専門家が構造化されたルーリックに対して反復的にレビューされ、スコア付けされ、洗練され、ヒトの努力によって改訂されたサブスタンダード出力や、専門家の合意に達するまでLLM再生が導かれた。
この公開データセットは、透明で検証可能な推論を可能にし、医療におけるより安全で解釈可能なAIを向上する医療用LLMの開発に不可欠な情報源を提供する。
関連論文リスト
- Can LLMs Support Medical Knowledge Imputation? An Evaluation-Based Perspective [1.4913052010438639]
我々は,Large Language Models (LLMs) を用いて,欠落した治療関係を計算した。
LLMは、知識増強において有望な能力を提供するが、医療知識計算におけるそれらの応用は、重大なリスクをもたらす。
本研究は, 臨床ガイドラインの不整合, 患者の安全性への潜在的なリスクなど, 重大な限界を指摘した。
論文 参考訳(メタデータ) (2025-03-29T02:52:17Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - An Active Inference Strategy for Prompting Reliable Responses from Large Language Models in Medical Practice [0.0]
大規模言語モデル(LLM)は非決定論的であり、誤ったあるいは有害な応答を与え、品質管理を保証するために規制できない。
提案フレームワークは, 評価された医療情報を含むドメイン固有のデータセットに対して, 一次知識ベースを限定することにより, LLM応答を改良する。
不眠症治療士に対する専門的認知行動療法をブラインド形式で評価した。
論文 参考訳(メタデータ) (2024-07-23T05:00:18Z) - Guiding Clinical Reasoning with Large Language Models via Knowledge Seeds [32.99251005719732]
臨床推論(英: Clinical reasoning)とは、医師が患者の評価と管理に用いている認知過程のことである。
本研究では,医学的知識によるLCMの強化を目的とした新しい枠組みであるICP(In-Context Padding)を提案する。
論文 参考訳(メタデータ) (2024-03-11T10:53:20Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Large Language Models Illuminate a Progressive Pathway to Artificial
Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。
本稿では,医学におけるLSMの応用と意義について概説する。
論文 参考訳(メタデータ) (2023-11-03T13:51:36Z) - Don't Ignore Dual Logic Ability of LLMs while Privatizing: A
Data-Intensive Analysis in Medical Domain [19.46334739319516]
本研究では, LLMの二重論理能力が, 医療領域の民営化過程における影響について検討した。
以上の結果から,LLMに汎用ドメイン二重論理データを組み込むことによって,LLMの二重論理能力が向上するだけでなく,精度も向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-08T08:20:46Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。