論文の概要: Reliability Auditing for Downstream LLM tasks in Psychiatry: LLM-Generated Hospitalization Risk Scores
- arxiv url: http://arxiv.org/abs/2604.22063v2
- Date: Wed, 29 Apr 2026 13:18:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 13:51:53.944473
- Title: Reliability Auditing for Downstream LLM tasks in Psychiatry: LLM-Generated Hospitalization Risk Scores
- Title(参考訳): 精神医学における下流LLM課題に対する信頼性調査:LLMを生かした入院リスクスコア
- Authors: Shevya Panda, Shinjini Bose, Ananya Joshi,
- Abstract要約: 大規模言語モデル(LLM)は、臨床推論やリスクアセスメントにますます活用されている。
しかし、精神医学のような批判的・不決定的な領域における解釈的信頼性は未だ不明である。
本稿では, インシデント設計の影響に関する評価を構造化することで, 下流LLMタスクの信頼性監査を行う手法を提案する。
- 参考スコア(独自算出の注目度): 5.004814662623874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly utilized in clinical reasoning and risk assessment. However, their interpretive reliability in critical and indeterminate domains such as psychiatry remains unclear. Prior work has identified algorithmic biases and prompt sensitivity in these systems, raising concerns about how contextual information may influence model outputs, but there remains no systematic way to assess these, especially in the psychiatric domain. We propose an approach for reliability auditing downstream LLM tasks by structuring evaluation around the impact of prompt design and the inclusion of medically insignificant inputs on predicted hospitalization risk scores, which is often the first downstream AI clinical-decision-making task. In our audit, a cohort of synthetic patient profiles (n = 50) is generated, each consisting of 15 clinically relevant features and up to 50 clinically insignificant features, across four prompt reframings (neutral, logical, human impact, clinical judgment). We audit four LLMs (Gemini 2.5 Flash, LLaMa 3.3 70b, Claude Sonnet 4.6, GPT-4o mini), and our results show that including medically insignificant variables resulted in a statistically significant increase in the absolute mean predicted hospitalization risk and output variability across all models and prompts, indicating reduced predictive stability as contextual noise increased. Clinically insignificant features had an effect on instability across many model-prompt conditions, and prompt variations independently affected the trajectory of instability in a model-dependent manner. These findings quantify how LLM-based psychiatric risk assessments are sensitive to non-clinical information, highlighting the need for systematic evaluations of attributional stability and uncertainty behavior like this before clinical deployments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、臨床推論やリスクアセスメントにますます活用されている。
しかし、精神医学のような批判的・不決定的な領域における解釈的信頼性は未だ不明である。
以前の研究では、これらのシステムのアルゴリズムバイアスと迅速な感度が特定されており、文脈情報がどのようにモデル出力に影響を与えるかという懸念が提起されているが、特に精神医学領域において、これらを評価する体系的な方法はない。
本稿では, 病院入院リスクの予測値に, 即時設計の影響と, 医学的に重要でない入力が組み込まれることに関する評価を組み込むことにより, 下流のLCMタスクの信頼性監査を行う手法を提案する。
検査では, 臨床に関連のある15の特徴と50の臨床的に重要でない特徴からなる合成患者プロファイル(n = 50)のコホートを, 4つの即発リフレミング(中性, 論理的, 人的影響, 臨床的判断)にわたって生成した。
我々は,4つのLCM (Gemini 2.5 Flash, LLaMa 3.3 70b, Claude Sonnet 4.6, GPT-4o mini) を検査し, 医学的に重要な変数を含むと, 絶対的な平均入院リスクと全モデル間の出力変動が統計的に有意に増加し, 文脈雑音の増加とともに予測安定性が低下することが示唆された。
臨床的に重要でない特徴は、多くのモデルプロンプト条件における不安定性に影響を及ぼし、即時変化はモデルに依存した方法で不安定性の軌跡に独立に影響を及ぼした。
これらの知見は,LCMに基づく精神医学的リスク評価が非臨床情報にどのように敏感であるかを定量化し,臨床展開前の帰属的安定性とこのような不確実性行動の体系的評価の必要性を浮き彫りにしている。
関連論文リスト
- CURA: Clinical Uncertainty Risk Alignment for Language Model-Based Risk Prediction [10.129412789850239]
本稿では,臨床用LMに基づくリスク推定と,個々のエラー確率とコホートレベルのあいまいさを一致させる枠組みを提案する。
MIMIC-IV 臨床リスク予測タスクの実験では、CURA は差別を実質的に損なうことなくキャリブレーションの指標を一貫して改善している。
論文 参考訳(メタデータ) (2026-04-16T05:58:37Z) - Beyond Prompt: Fine-grained Simulation of Cognitively Impaired Standardized Patients via Stochastic Steering [58.85421622061983]
認知障害患者の微粒化シミュレーションのためのStsPatientを提案する。
対照的な命令と応答のペアからステアリングベクトルを抽出することにより、ドメイン固有の特徴を捉える。
StsPatientは、臨床の信頼性と重症度の両方において、ベースラインを著しく上回る。
論文 参考訳(メタデータ) (2026-04-14T02:37:46Z) - Diagnostics for Individual-Level Prediction Instability in Machine Learning for Healthcare [0.0]
2つの相補的診断法を用いて個人レベルの予測不安定性を定量化する評価フレームワークを提案する。
これらの診断をシミュレーションデータとGUSTO-I臨床データセットに適用する。
論文 参考訳(メタデータ) (2026-02-27T03:42:28Z) - Bridging the Knowledge-Action Gap by Evaluating LLMs in Dynamic Dental Clinical Scenarios [9.865786198063644]
受動的知識検索装置から自律的臨床エージェントへの大規模言語モデル(LLM)の移行は、静的精度から動的行動信頼性への評価のシフトを要求する。
本研究は, 歯科用LLMの能力境界を実証的に表し, 標準化された知識と安全で自律的な臨床実践のギャップを埋めるためのロードマップを提供する。
論文 参考訳(メタデータ) (2026-01-19T11:36:39Z) - ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。
本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文 参考訳(メタデータ) (2025-12-29T12:58:58Z) - A Real-World Evaluation of LLM Medication Safety Reviews in NHS Primary Care [5.167350493769989]
本研究は,NHSプライマリケアデータを用いたLSMベースの医薬品安全性評価システムの最初の評価である。
患者を戦略的に採取し,幅広い臨床複雑性と薬剤の安全性リスクを捉えた。
当システムでは,臨床症状の認識に強い性能を示した。
論文 参考訳(メタデータ) (2025-12-24T11:58:49Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - LLMs for clinical risk prediction [0.0]
GPT-4は陽性例の同定に重大な欠陥を示し、デリリウムリスクに対する信頼性の高い推定値の提供に苦慮した。
Clinalytix Medical AIは精度が優れていた。
論文 参考訳(メタデータ) (2024-09-16T11:34:40Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Clinical Outcome Prediction from Admission Notes using Self-Supervised
Knowledge Integration [55.88616573143478]
臨床テキストからのアウトカム予測は、医師が潜在的なリスクを見落としないようにする。
退院時の診断,手術手順,院内死亡率,長期予測は4つの一般的な結果予測対象である。
複数の公開資料から得られた患者結果に関する知識を統合するために,臨床結果の事前学習を提案する。
論文 参考訳(メタデータ) (2021-02-08T10:26:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。