論文の概要: Training and Evaluation of Guideline-Based Medical Reasoning in LLMs
- arxiv url: http://arxiv.org/abs/2512.03838v1
- Date: Wed, 03 Dec 2025 14:39:02 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:08:19.247284
- Title: Training and Evaluation of Guideline-Based Medical Reasoning in LLMs
- Title(参考訳): LLMにおけるガイドラインに基づく医療推論の訓練と評価
- Authors: Michael Staniek, Artem Sokolov, Stefan Riezler,
- Abstract要約: 医学における早期予測のための機械学習は、最近、画期的なパフォーマンスを示している。
本研究の目的は,医学コンセンサスガイドラインに従って理学療法と予測過程を段階的に実施することである。
- 参考スコア(独自算出の注目度): 7.814266948607376
- License:
- Abstract: Machine learning for early prediction in medicine has recently shown breakthrough performance, however, the focus on improving prediction accuracy has led to a neglect of faithful explanations that are required to gain the trust of medical practitioners. The goal of this paper is to teach LLMs to follow medical consensus guidelines step-by-step in their reasoning and prediction process. Since consensus guidelines are ubiquitous in medicine, instantiations of verbalized medical inference rules to electronic health records provide data for fine-tuning LLMs to learn consensus rules and possible exceptions thereof for many medical areas. Consensus rules also enable an automatic evaluation of the model's inference process regarding its derivation correctness (evaluating correct and faithful deduction of a conclusion from given premises) and value correctness (comparing predicted values against real-world measurements). We exemplify our work using the complex Sepsis-3 consensus definition. Our experiments show that small fine-tuned models outperform one-shot learning of considerably larger LLMs that are prompted with the explicit definition and models that are trained on medical texts including consensus definitions. Since fine-tuning on verbalized rule instantiations of a specific medical area yields nearly perfect derivation correctness for rules (and exceptions) on unseen patient data in that area, the bottleneck for early prediction is not out-of-distribution generalization, but the orthogonal problem of generalization into the future by forecasting sparsely and irregularly sampled clinical variables. We show that the latter results can be improved by integrating the output representations of a time series forecasting model with the LLM in a multimodal setup.
- Abstract(参考訳): 医学における早期予測のための機械学習は、最近、画期的なパフォーマンスを示しているが、予測精度の向上に焦点が当てられているため、医療従事者の信頼を得るために必要な忠実な説明は無視されている。
本研究の目的は,医学コンセンサスガイドラインに従って理学療法と予測過程を段階的に実施することである。
コンセンサスガイドラインは医学においてユビキタスなものであるため、電子健康記録への言葉化医療推論規則のインスタンス化は、多くの医療分野においてコンセンサス規則とその可能な例外を学習するための微調整LSMのデータを提供する。
合意規則はまた、モデルの推論過程を、その導出正当性(与えられた前提から結論を正しく忠実に導出することの評価)と値正当性(実世界の測定に対して予測値を比較すること)について自動評価することを可能にする。
我々は、複雑なSepsis-3コンセンサス定義を用いて、我々の研究を例示する。
実験の結果, 小型微調整モデルでは, 明確な定義と, コンセンサス定義を含む医療用テキストで訓練されたモデルにより, かなり大きなLCMのワンショット学習よりも優れていた。
特定の医療領域の口語化規則のインスタンス化を微調整すると、その領域の未確認患者データに対するルール(および例外)のほぼ完全な導出精度が得られるため、早期予測のボトルネックは、分布外一般化ではなく、スパースかつ不規則にサンプリングされた臨床変数を予測することによって、将来への一般化の直交問題である。
時系列予測モデルの出力表現をマルチモーダル設定でLLMと統合することにより、後者の結果を改善することができることを示す。
関連論文リスト
- Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。
我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-12T09:03:30Z) - Will Large Language Models Transform Clinical Prediction? [6.239284099493876]
大規模言語モデル(LLM)は、医療への関心が高まっている。
本解説は,臨床予測モデル(CPM)を診断・予後タスクに応用するためのLSMの可能性を評価するものである。
論文 参考訳(メタデータ) (2025-05-23T17:02:04Z) - Evaluating Machine Learning Models against Clinical Protocols for Enhanced Interpretability and Continuity of Care [39.58317527488534]
臨床実践において、意思決定は確立されたプロトコルに大きく依存し、しばしば規則として定式化される。
機械学習アプリケーションの増加にもかかわらず、臨床実践への導入は依然として限られている。
確立されたプロトコルに関して,MLモデルの精度を評価する指標を提案する。
論文 参考訳(メタデータ) (2024-11-05T13:50:09Z) - Reasoning-Enhanced Healthcare Predictions with Knowledge Graph Community Retrieval [61.70489848327436]
KAREは、知識グラフ(KG)コミュニティレベルの検索と大規模言語モデル(LLM)推論を統合する新しいフレームワークである。
MIMIC-IIIでは最大10.8~15.0%、MIMIC-IVでは12.6~12.7%である。
論文 参考訳(メタデータ) (2024-10-06T18:46:28Z) - Automated Medical Coding on MIMIC-III and MIMIC-IV: A Critical Review
and Replicability Study [60.56194508762205]
我々は、最先端の医療自動化機械学習モデルを再現し、比較し、分析する。
その結果, 弱い構成, サンプル化の不十分さ, 評価の不十分さなどにより, いくつかのモデルの性能が低下していることが判明した。
再生モデルを用いたMIMIC-IVデータセットの総合評価を行った。
論文 参考訳(メタデータ) (2023-04-21T11:54:44Z) - Can Current Explainability Help Provide References in Clinical Notes to
Support Humans Annotate Medical Codes? [53.45585591262433]
本稿では、注意スコアに基づくxRAC-ATTNと、モデルに依存しない知識蒸留に基づくxRAC-KDの2つのアプローチについて説明する。
我々は,xRAC-ATTNが強調した支持エビデンステキストが,xRAC-KDよりも高品質であるのに対して,xRAC-KDは本番環境において潜在的に有利であることを示した。
論文 参考訳(メタデータ) (2022-10-28T04:06:07Z) - Improving Trustworthiness of AI Disease Severity Rating in Medical
Imaging with Ordinal Conformal Prediction Sets [0.7734726150561088]
統計的に厳密な不確実性定量化の欠如は、AI結果の信頼を損なう重要な要因である。
分布自由不確実性定量化の最近の進歩は、これらの問題に対する実用的な解決策である。
本稿では, 正しい狭窄の重症度を含むことが保証される順序予測セットを形成する手法を実証する。
論文 参考訳(メタデータ) (2022-07-05T18:01:20Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。