論文の概要: Do Clinical Models Change Treatment Decisions?
- arxiv url: http://arxiv.org/abs/2605.28129v1
- Date: Wed, 27 May 2026 08:19:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.881544
- Title: Do Clinical Models Change Treatment Decisions?
- Title(参考訳): 臨床モデルは治療決定を変えるか?
- Authors: Dongkyu Cho, Miao Zhang, Rumi Chunara,
- Abstract要約: ClinPivotは、バイオメディカルリレーションとピボットされた患者コンテキストから構築された、監査可能な治療判定ベンチマークである。
強い医学的QAパフォーマンスは、意思決定性能を確実に予測できないことが判明した。
意思決定構造化監視は、整合した知識予算の下で、ピボットセンシティブな意思決定と医療QAを改善する。
- 参考スコア(独自算出の注目度): 13.279553235224988
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical foundation models are evaluated with factual or exam-style medical QA, but treatment decisions must change when patient context changes. We introduce ClinPivot, an auditable treatment-decision benchmark built from biomedical relations and pivoted patient contexts. ClinPivot asks whether models change treatment choices when new clinical constraints shift the action space. We find that strong medical QA performance does not reliably predict decision-making performance: frontier models and task-adapted Qwen variants often fail to change decisions correctly, and model rankings shift across evaluation regimes. Decision-structured supervision improves pivot-sensitive decision-making and medical QA under matched knowledge budgets, while lightweight replay reduces losses in general assistant ability.
- Abstract(参考訳): 臨床基礎モデルは、事実または検査スタイルの医療QAで評価されるが、患者の状況が変わると治療決定が変更されなければならない。
バイオメディカルリレーションとピボットされた患者コンテキストから構築された聴覚的治療判定ベンチマークであるClinPivotを紹介する。
ClinPivotは、新しい臨床的制約がアクション空間を変えるとき、モデルが治療選択を変更するかどうかを問う。
フロンティアモデルとタスク適応型Qwenは、しばしば意思決定を正しく変更できず、モデルランキングは評価体制にまたがってシフトする。
決定構造化された監視は、一致した知識予算の下でのピボット・センシティブな意思決定と医療QAを改善し、一方、軽量なリプレイは一般的なアシスタント能力の損失を減らす。
関連論文リスト
- MedGuideX: Internalizing Decision Logic from Executable Guidelines into Large Language Models for Clinical Reasoning [24.304759042225697]
臨床実践ガイドライン(CPGs)は、臨床医が患者変数、条件基準、レコメンデーションルールを評価することによって適用するエビデンスに基づく意思決定ロジックを符号化する。
我々は、CPG勧告を実行可能な臨床判断ロジックに変換するガイドライン由来のトレーニングパイプラインを導入する。
4つの臨床推論ベンチマークで、MedGuideXは平均精度が10.28%向上した。
論文 参考訳(メタデータ) (2026-05-26T05:36:05Z) - From Static Risk to Dynamic Trajectories: Toward World-Model-Inspired Clinical Prediction [61.12883122613684]
本稿では, 患者固有の縦断疾患の進展を推定し, 代替治療下での軌跡変化を評価するための, 臨床AIにおける介入認識型疾患軌跡モデリングに焦点をあてる。
3つの意思決定タスク(実測,反実推定,政策評価)と3つのデータ生成機構(障害発生, 治療課題, 観察過程)によって, 識別可能性を決定する。
本稿では,個別/連続時間にまたがる予測,反ファクト的軌跡,政策評価の統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2026-05-16T10:45:26Z) - ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。
本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文 参考訳(メタデータ) (2025-12-29T12:58:58Z) - Aligning Evaluation with Clinical Priorities: Calibration, Label Shift, and Error Costs [3.299877799532224]
校正しきい値分類器を選択するための基本的かつ実用的な評価フレームワークを提案する。
臨床的に関連のあるクラスバランスの範囲でコスト重み付け性能を平均化するクロスエントロピー(log score)の調整版を導出する。
その結果得られた評価は、簡単に適用でき、臨床展開条件に敏感であり、キャリブレーションされたモデルと実世界の変動に頑健なモデルの両方を優先順位付けするよう設計されている。
論文 参考訳(メタデータ) (2025-06-17T14:01:39Z) - RECAP-KG: Mining Knowledge Graphs from Raw GP Notes for Remote COVID-19
Assessment in Primary Care [45.43645878061283]
本稿では,患者相談の前後に書かれた生のGP医療ノートから知識グラフ構築を行うフレームワークを提案する。
私たちの知識グラフには、既存の患者の症状、その持続時間、重症度に関する情報が含まれています。
本フレームワークを英国における新型コロナウイルス患者の相談ノートに適用する。
論文 参考訳(メタデータ) (2023-06-17T23:35:51Z) - POETREE: Interpretable Policy Learning with Adaptive Decision Trees [78.6363825307044]
POETREEは、ポリシー学習を解釈するための新しいフレームワークである。
患者の観察と医療史に基づいて、医師の行動を決定する確率的ツリーポリシーを構築する。
これは、リアルおよび合成医療データセットの最先端を上回ります。
論文 参考訳(メタデータ) (2022-03-15T16:50:52Z) - Optimal discharge of patients from intensive care via a data-driven
policy learning framework [58.720142291102135]
退院課題は、退院期間の短縮と退院決定後の退院や死亡のリスクとの不確実なトレードオフに対処することが重要である。
本研究は、このトレードオフを捉えるためのエンドツーエンドの汎用フレームワークを導入し、最適放電タイミング決定を推奨する。
データ駆動型アプローチは、患者の生理的状態を捉えた同種で離散的な状態空間表現を導出するために用いられる。
論文 参考訳(メタデータ) (2021-12-17T04:39:33Z) - What Do You See in this Patient? Behavioral Testing of Clinical NLP
Models [69.09570726777817]
本稿では,入力の変化に関する臨床結果モデルの振る舞いを評価する拡張可能なテストフレームワークを提案する。
私たちは、同じデータを微調整しても、モデル行動は劇的に変化し、最高のパフォーマンスのモデルが常に最も医学的に可能なパターンを学習していないことを示しています。
論文 参考訳(メタデータ) (2021-11-30T15:52:04Z) - Health improvement framework for planning actionable treatment process
using surrogate Bayesian model [1.2468700211588881]
本研究は,データ駆動方式で治療プロセスを計画するための新しい枠組みを提案する。
このフレームワークの重要なポイントは、個人の健康改善のための「行動可能性」の評価である。
論文 参考訳(メタデータ) (2020-10-30T06:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。