論文の概要: ClinDet-Bench: Beyond Abstention, Evaluating Judgment Determinability of LLMs in Clinical Decision-Making
- arxiv url: http://arxiv.org/abs/2602.22771v1
- Date: Thu, 26 Feb 2026 09:03:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.611545
- Title: ClinDet-Bench: Beyond Abstention, Evaluating Judgment Determinability of LLMs in Clinical Decision-Making
- Title(参考訳): ClinDet-Bench: 臨床診断におけるLCMの判断可能性の評価
- Authors: Yusuke Watanabe, Yohei Kobashi, Takeshi Kojima, Yusuke Iwasawa, Yasushi Okuno, Yutaka Matsuo,
- Abstract要約: 不完全な情報の下で決定可能性を評価するベンチマークであるClinDet-Benchを開発した。
近年の大規模言語モデル (LLM) は不完全情報に基づく決定可能性の同定に失敗している。
- 参考スコア(独自算出の注目度): 38.53727520114093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical decisions are often required under incomplete information. Clinical experts must identify whether available information is sufficient for judgment, as both premature conclusion and unnecessary abstention can compromise patient safety. To evaluate this capability of large language models (LLMs), we developed ClinDet-Bench, a benchmark based on clinical scoring systems that decomposes incomplete-information scenarios into determinable and undeterminable conditions. Identifying determinability requires considering all hypotheses about missing information, including unlikely ones, and verifying whether the conclusion holds across them. We find that recent LLMs fail to identify determinability under incomplete information, producing both premature judgments and excessive abstention, despite correctly explaining the underlying scoring knowledge and performing well under complete information. These findings suggest that existing benchmarks are insufficient to evaluate the safety of LLMs in clinical settings. ClinDet-Bench provides a framework for evaluating determinability recognition, leading to appropriate abstention, with potential applicability to medicine and other high-stakes domains, and is publicly available.
- Abstract(参考訳): 臨床診断は、しばしば不完全な情報の下で必要とされる。
臨床専門家は、早期の結論と不必要な棄権の両方が患者の安全を損なう可能性があるため、利用可能な情報が判断に十分かどうかを判断しなければならない。
大規模言語モデル(LLM)のこの能力を評価するため,臨床評価システムに基づくベンチマークClinDet-Benchを開発した。
決定可能性の特定には、見つからない情報を含む、欠落した情報に関するすべての仮説を考慮し、結論がそれら全体で成立するかどうかを検証する必要がある。
近年のLCMでは,不完全情報に基づく決定可能性の同定に失敗し,未熟な判断と過剰な棄却の両方を生んだ。
これらの結果から, 臨床環境におけるLCMsの安全性を評価するには, 既存のベンチマークでは不十分であることが示唆された。
ClinDet-Benchは、決定可能性の認識を評価するためのフレームワークを提供する。
関連論文リスト
- Knowing When to Abstain: Medical LLMs Under Clinical Uncertainty [7.985656420275706]
MedAbstainは,医療用多票質問応答における禁忌のための統一ベンチマークおよび評価プロトコルである。
最先端で高精度なモデルでさえ、不確実性に欠けることがよくあります。
論文 参考訳(メタデータ) (2026-01-18T16:19:29Z) - Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。
本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。
本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文 参考訳(メタデータ) (2025-10-11T16:24:35Z) - LLMs for clinical risk prediction [0.0]
GPT-4は陽性例の同定に重大な欠陥を示し、デリリウムリスクに対する信頼性の高い推定値の提供に苦慮した。
Clinalytix Medical AIは精度が優れていた。
論文 参考訳(メタデータ) (2024-09-16T11:34:40Z) - CliBench: A Multifaceted and Multigranular Evaluation of Large Language Models for Clinical Decision Making [16.310913127940857]
我々はMIMIC IVデータセットから開発された新しいベンチマークであるCliBenchを紹介する。
このベンチマークは、臨床診断におけるLSMの能力を包括的かつ現実的に評価する。
臨床診断の熟練度を評価するため,先進LSMのゼロショット評価を行った。
論文 参考訳(メタデータ) (2024-06-14T11:10:17Z) - Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。
本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。
主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文 参考訳(メタデータ) (2023-01-01T05:02:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。