論文の概要: Enhancing LLMs' Clinical Reasoning with Real-World Data from a Nationwide Sepsis Registry
- arxiv url: http://arxiv.org/abs/2505.02722v1
- Date: Mon, 05 May 2025 15:23:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.724529
- Title: Enhancing LLMs' Clinical Reasoning with Real-World Data from a Nationwide Sepsis Registry
- Title(参考訳): 全国シープシス登録による実世界データによるLCMsの臨床推論の強化
- Authors: Junu Kim, Chaeeun Shim, Sungjin Park, Su Yeon Lee, Gee Young Suh, Chae-Man Lim, Seong Jin Choi, Song Mi Moon, Kyoung-Ho Song, Eu Suk Kim, Hong Bin Kim, Sejoong Kim, Chami Im, Dong-Wan Kang, Yong Soo Kim, Hee-Joon Bae, Sung Yoon Lim, Han-Gil Jeong, Edward Choi,
- Abstract要約: 実世界の臨床データを活用することで,大規模言語モデル(LLM)の臨床推論能力を向上させることを提案する。
強化学習を用いて, セプシスレジストリとPhi-4を微調整し, 推論集約的な質問文を構築した。
C-Reasonは、定量測定と専門家評価の両方で証明されているように、ドメイン内テストセットに強力な臨床推論能力を示した。
- 参考スコア(独自算出の注目度): 6.708086562553881
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Although large language models (LLMs) have demonstrated impressive reasoning capabilities across general domains, their effectiveness in real-world clinical practice remains limited. This is likely due to their insufficient exposure to real-world clinical data during training, as such data is typically not included due to privacy concerns. To address this, we propose enhancing the clinical reasoning capabilities of LLMs by leveraging real-world clinical data. We constructed reasoning-intensive questions from a nationwide sepsis registry and fine-tuned Phi-4 on these questions using reinforcement learning, resulting in C-Reason. C-Reason exhibited strong clinical reasoning capabilities on the in-domain test set, as evidenced by both quantitative metrics and expert evaluations. Furthermore, its enhanced reasoning capabilities generalized to a sepsis dataset involving different tasks and patient cohorts, an open-ended consultations on antibiotics use task, and other diseases. Future research should focus on training LLMs with large-scale, multi-disease clinical datasets to develop more powerful, general-purpose clinical reasoning models.
- Abstract(参考訳): 大規模言語モデル (LLM) は, 一般領域にまたがる顕著な推論能力を示したが, 実際の臨床実践における有効性は限られている。
これは、トレーニング中の実際の臨床データへの露出が不十分であるためであろう。
そこで本研究では,実世界の臨床データを活用したLCMの臨床推論能力の向上を提案する。
C-Reasonは,全国のセプシス登録簿から,これらの質問に対して強化学習を用いてPhi-4を微調整した。
C-Reasonは、定量測定と専門家評価の両方で証明されているように、ドメイン内テストセットに強力な臨床推論能力を示した。
さらに、その強化された推論能力は、様々なタスクと患者コホートを含む敗血症データセット、抗生物質に関するオープンな相談がタスクやその他の病気に一般化された。
今後の研究は、より強力で汎用的な臨床推論モデルを開発するために、大規模で多機能な臨床データセットを用いたLSMのトレーニングに焦点を当てるべきである。
関連論文リスト
- Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking [58.25862290294702]
臨床ワークフローの5つの重要な段階をカバーする12,163の臨床症例のデータセットであるMedChainを提示する。
フィードバック機構とMCase-RAGモジュールを統合したAIシステムであるMedChain-Agentも提案する。
論文 参考訳(メタデータ) (2024-12-02T15:25:02Z) - CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - DiReCT: Diagnostic Reasoning for Clinical Notes via Large Language Models [32.85606857702375]
本研究では,人間医師と比較して,大規模言語モデル(LLM)の推論能力と解釈可能性を評価することを目的とする。
臨床注記用診断推論データセット(DiReCT)は、511の臨床注記を含む。
論文 参考訳(メタデータ) (2024-08-04T05:15:02Z) - TrialBench: Multi-Modal Artificial Intelligence-Ready Clinical Trial Datasets [57.067409211231244]
本稿では,マルチモーダルデータ(例えば,薬物分子,疾患コード,テキスト,分類・数値的特徴)と臨床治験設計における8つの重要な予測課題をカバーするAIreadyデータセットを精巧にキュレートした。
データセットのユーザビリティと信頼性を確保するため、各タスクに基本的な検証方法を提供する。
このようなオープンアクセスデータセットが利用可能になることは、臨床試験設計のための高度なAIアプローチの開発を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-30T09:13:10Z) - Large Language Models in the Clinic: A Comprehensive Benchmark [63.21278434331952]
診療所の大規模言語モデル(LLM)をよりよく理解するためのベンチマークであるClimateBenchを構築した。
まず、さまざまな臨床言語の生成、理解、推論タスクを含む11の既存のデータセットを収集します。
次に,現実の実践において複雑だが一般的である6つの新しいデータセットと臨床タスクを構築した。
ゼロショット設定と少数ショット設定の両方で、20個のLDMを広範囲に評価する。
論文 参考訳(メタデータ) (2024-04-25T15:51:06Z) - Guiding Clinical Reasoning with Large Language Models via Knowledge Seeds [32.99251005719732]
臨床推論(英: Clinical reasoning)とは、医師が患者の評価と管理に用いている認知過程のことである。
本研究では,医学的知識によるLCMの強化を目的とした新しい枠組みであるICP(In-Context Padding)を提案する。
論文 参考訳(メタデータ) (2024-03-11T10:53:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。