論文の概要: The Value Sensitivity Gap: How Clinical Large Language Models Respond to Patient Preference Statements in Shared Decision-Making
- arxiv url: http://arxiv.org/abs/2603.00076v1
- Date: Thu, 12 Feb 2026 21:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.02832
- Title: The Value Sensitivity Gap: How Clinical Large Language Models Respond to Patient Preference Statements in Shared Decision-Making
- Title(参考訳): 重度感性ギャップ : 共有意思決定における患者嗜好書に対する大規模言語モデルの反応
- Authors: Sanjay Basu,
- Abstract要約: 大規模言語モデル (LLM) は意思決定支援ツールとして臨床に導入されているが, 患者価値の明示的な記述に対する対応方法はまだ検討されていない。
我々は,98,759人の未確認メディケイド遭遇ノートから得られた臨床ヴィニグレットを用いて因子分析を行った。
全てのモデルでは、非コントロール試験の100%で患者の値を認めたが、実際の推奨シフトは控えめであった。
- 参考スコア(独自算出の注目度): 0.6768558752130311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are entering clinical workflows as decision support tools, yet how they respond to explicit patient value statements -- the core content of shared decision-making -- remains unmeasured. We conducted a factorial experiment using clinical vignettes derived from 98,759 de-identified Medicaid encounter notes. We tested four LLM families (GPT-5.2, Claude 4.5 Sonnet, Gemini 3 Pro, and DeepSeek-R1) across 13 value conditions in two clinical domains, yielding 104 trials. Default value orientations differed across model families (aggressiveness range 2.0 to 3.5 on a 1-to-5 scale). Value sensitivity indices ranged from 0.13 to 0.27, and directional concordance with patient-stated preferences ranged from 0.625 to 1.0. All models acknowledged patient values in 100% of non-control trials, yet actual recommendation shifting remained modest. Decision-matrix and VIM self-report mitigations each improved directional concordance by 0.125 in a 78-trial Phase 2 evaluation. These findings provide empirical data for populating value disclosure labels proposed by clinical AI governance frameworks.
- Abstract(参考訳): 大きな言語モデル(LLM)は意思決定支援ツールとして臨床ワークフローに入りつつありますが、明確な患者価値ステートメント(共有意思決定の中核的な内容)への対応方法はまだ検討されていません。
我々は,98,759人の未確認メディケイド遭遇ノートから得られた臨床ヴィニグレットを用いて因子分析を行った。
GPT-5.2, Claude 4.5 Sonnet, Gemini 3 Pro, DeepSeek-R1) の4家系を2つの臨床領域で13の値で比較検討し, 104の試験結果を得た。
デフォルト値の向きはモデルファミリによって異なる(攻撃性は1-to-5スケールで2.0から3.5の範囲)。
感度指標は0.13から0.27の範囲で、患者統計による嗜好の方向性は0.625から1.0である。
全てのモデルでは、非コントロール試験の100%で患者の値を認めたが、実際の推奨シフトは控えめであった。
78段階評価では, 方向一致率を0.125改善した。
これらの知見は、臨床AIガバナンスフレームワークが提案する価値開示ラベルを収集するための実証データを提供する。
関連論文リスト
- PanCanBench: A Comprehensive Benchmark for Evaluating Large Language Models in Pancreatic Oncology [48.732366302949515]
大規模言語モデル(LLM)は、標準化された検査において専門家レベルの性能を達成したが、複数の選択精度は現実の臨床的有用性や安全性を十分に反映していない。
我々は、未確認患者の質問に対して、専門家のルーブリックを作成するための、ループ内人間パイプラインを開発した。
LLM-as-a-judge フレームワークを用いて,22のプロプライエタリおよびオープンソース LLM の評価を行い,臨床完全性,事実精度,Web-search 統合について検討した。
論文 参考訳(メタデータ) (2026-03-02T00:50:39Z) - Conformal Prediction for Risk-Controlled Medical Entity Extraction Across Clinical Domains [2.744879848686032]
本稿では,医療機関抽出のための有限サンプルカバレッジ保証を提供するコンフォメーション予測フレームワークを提案する。
まず,FactScoreをベースとした原子式ステートメント評価により,GPT-4.1を用いて,FDAの医薬品ラベル1000個から構造化されたエンティティを抽出した。
第2に,GPT-4.1とLlama-4-Maverickを用いたRadGraphスキーマを用いてMIMIC-CXRレポートから放射線学的実体を抽出し,医師のアノテーションに対して評価した。
論文 参考訳(メタデータ) (2026-03-01T05:12:25Z) - LiveClin: A Live Clinical Benchmark without Leakage [50.45415584327275]
LiveClinは、実際の臨床実践を近似するために設計されたライブベンチマークである。
本研究は,患者を臨床経過全体にわたる複雑なマルチモーダルな評価シナリオに転換する。
LiveClin上で26のモデルを評価すると、これらの実世界のシナリオの難しさが明らかとなり、最高性能のモデルではケース精度が35.7%に達した。
論文 参考訳(メタデータ) (2026-02-18T03:59:46Z) - Explainable Admission-Level Predictive Modeling for Prolonged Hospital Stay in Elderly Populations: Challenges in Low- and Middle-Income Countries [65.4286079244589]
長期滞在期間 (pLoS) は, 院内感染のリスクに関連する重要な要因である。
入院レベルの患者と病院の診療データを用いて, pLosの予測モデルを開発し, 解説する。
論文 参考訳(メタデータ) (2026-01-07T23:35:24Z) - DeVisE: Behavioral Testing of Medical Large Language Models [14.832083455439749]
DeVisEは、きめ細かい臨床的理解を求めるための行動テストフレームワークである。
我々はMIMIC-IVからICU排出音符のデータセットを構築した。
汎用型および医療用微調整型にまたがる5種類のLSMについて検討した。
論文 参考訳(メタデータ) (2025-06-18T10:42:22Z) - MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。
これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。
MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文 参考訳(メタデータ) (2025-05-26T22:55:49Z) - Can Reasoning LLMs Enhance Clinical Document Classification? [7.026393789313748]
大規模言語モデル(LLM)は、このタスクの正確性と効率性において有望な改善を提供する。
本研究では,8つのLDMの性能と一貫性を評価する。4つの推論(Qwen QWQ, Deepseek Reasoner, GPT o3 Mini, Gemini 2.0 Flash Thinking)と4つの非推論(Llama 3.3, GPT 4o Mini, Gemini 2.0 Flash, Deepseek Chat)。
その結果、推論モデルは精度71%(68%)とF1スコア(67%(60%))で非推論モデルを上回った。
論文 参考訳(メタデータ) (2025-04-10T18:00:27Z) - Multi-modal AI for comprehensive breast cancer prognostication [18.691704371847855]
我々は、デジタル病理と臨床データを統合する新しい人工知能(AI)ベースのアプローチを開発した。
この検査は15のコホートで計8,161人の乳がん患者のデータを用いて開発・評価された。
以上の結果から,我々のAIテストは既存の予後検査の精度を改善しつつ,幅広い患者に適用可能であることが示唆された。
論文 参考訳(メタデータ) (2024-10-28T17:54:29Z) - Classification supporting COVID-19 diagnostics based on patient survey
data [82.41449972618423]
新型コロナウイルス患者の効果的なスクリーニングを可能にするロジスティック回帰とXGBoost分類器が作成された。
得られた分類モデルは、DECODEサービス(decode.polsl.pl)の基礎を提供し、COVID-19病患者のスクリーニング支援に役立てることができる。
このデータセットは、3,000以上のサンプルで構成されており、ポーランドの病院で収集されたアンケートに基づいている。
論文 参考訳(メタデータ) (2020-11-24T17:44:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。