Fugu-MT 論文翻訳(概要): ClinDet-Bench: Beyond Abstention, Evaluating Judgment Determinability of LLMs in Clinical Decision-Making

論文の概要: ClinDet-Bench: Beyond Abstention, Evaluating Judgment Determinability of LLMs in Clinical Decision-Making

arxiv url: http://arxiv.org/abs/2602.22771v1
Date: Thu, 26 Feb 2026 09:03:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.611545
Title: ClinDet-Bench: Beyond Abstention, Evaluating Judgment Determinability of LLMs in Clinical Decision-Making
Title（参考訳）: ClinDet-Bench: 臨床診断におけるLCMの判断可能性の評価
Authors: Yusuke Watanabe, Yohei Kobashi, Takeshi Kojima, Yusuke Iwasawa, Yasushi Okuno, Yutaka Matsuo,
Abstract要約: 不完全な情報の下で決定可能性を評価するベンチマークであるClinDet-Benchを開発した。近年の大規模言語モデル (LLM) は不完全情報に基づく決定可能性の同定に失敗している。
参考スコア（独自算出の注目度）: 38.53727520114093
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Clinical decisions are often required under incomplete information. Clinical experts must identify whether available information is sufficient for judgment, as both premature conclusion and unnecessary abstention can compromise patient safety. To evaluate this capability of large language models (LLMs), we developed ClinDet-Bench, a benchmark based on clinical scoring systems that decomposes incomplete-information scenarios into determinable and undeterminable conditions. Identifying determinability requires considering all hypotheses about missing information, including unlikely ones, and verifying whether the conclusion holds across them. We find that recent LLMs fail to identify determinability under incomplete information, producing both premature judgments and excessive abstention, despite correctly explaining the underlying scoring knowledge and performing well under complete information. These findings suggest that existing benchmarks are insufficient to evaluate the safety of LLMs in clinical settings. ClinDet-Bench provides a framework for evaluating determinability recognition, leading to appropriate abstention, with potential applicability to medicine and other high-stakes domains, and is publicly available.
Abstract（参考訳）: 臨床診断は、しばしば不完全な情報の下で必要とされる。臨床専門家は、早期の結論と不必要な棄権の両方が患者の安全を損なう可能性があるため、利用可能な情報が判断に十分かどうかを判断しなければならない。大規模言語モデル(LLM)のこの能力を評価するため,臨床評価システムに基づくベンチマークClinDet-Benchを開発した。決定可能性の特定には、見つからない情報を含む、欠落した情報に関するすべての仮説を考慮し、結論がそれら全体で成立するかどうかを検証する必要がある。近年のLCMでは,不完全情報に基づく決定可能性の同定に失敗し,未熟な判断と過剰な棄却の両方を生んだ。これらの結果から, 臨床環境におけるLCMsの安全性を評価するには, 既存のベンチマークでは不十分であることが示唆された。 ClinDet-Benchは、決定可能性の認識を評価するためのフレームワークを提供する。

関連論文リスト

Guideline-Grounded Evidence Accumulation for High-Stakes Agent Verification [60.18369393468405]
既存の検証器は通常、ドメイン知識の欠如と限られた校正のために性能が劣る。 GLEANは専門家によって計算されたプロトコルをトラジェクトリインフォームされ、よく校正された正当性信号にコンパイルする。我々は,MIMIC-IVデータセットから得られた3つの疾患の薬物的臨床診断でGLEANを実証的に検証した。
論文参考訳（メタデータ） (2026-03-03T09:36:43Z)
Knowing When to Abstain: Medical LLMs Under Clinical Uncertainty [7.985656420275706]
MedAbstainは,医療用多票質問応答における禁忌のための統一ベンチマークおよび評価プロトコルである。最先端で高精度なモデルでさえ、不確実性に欠けることがよくあります。
論文参考訳（メタデータ） (2026-01-18T16:19:29Z)
ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文参考訳（メタデータ） (2025-12-29T12:58:58Z)
Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。 LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文参考訳（メタデータ） (2025-10-21T18:10:45Z)
Simulating Viva Voce Examinations to Evaluate Clinical Reasoning in Large Language Models [51.91760712805404]
大規模言語モデル(LLM)におけるシーケンシャルな臨床推論を評価するためのベンチマークであるVivaBenchを紹介する。本データセットは,医療訓練における(口頭)検査をシミュレートする対話的シナリオとして構成された1762名の医師による臨床ヴィグネットから構成される。本分析では,臨床における認知的誤りを反映するいくつかの障害モードを同定した。
論文参考訳（メタデータ） (2025-10-11T16:24:35Z)
Evaluating LLMs in Medicine: A Call for Rigor, Transparency [2.2445597370194834]
方法: MedQA, MedMCQA, PubMedQA, MMLUを含む広範囲に使用されているベンチマークデータセットを, 厳密さ, 透明性, 臨床シナリオとの関連性についてレビューした。医学雑誌の課題質問などの代替案も分析され、その可能性を偏見のない評価ツールとして特定した。
論文参考訳（メタデータ） (2025-07-11T16:09:25Z)
Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文参考訳（メタデータ） (2025-04-21T16:51:11Z)
LLMs for clinical risk prediction [0.0]
GPT-4は陽性例の同定に重大な欠陥を示し、デリリウムリスクに対する信頼性の高い推定値の提供に苦慮した。 Clinalytix Medical AIは精度が優れていた。
論文参考訳（メタデータ） (2024-09-16T11:34:40Z)
CliBench: A Multifaceted and Multigranular Evaluation of Large Language Models for Clinical Decision Making [16.310913127940857]
我々はMIMIC IVデータセットから開発された新しいベンチマークであるCliBenchを紹介する。このベンチマークは、臨床診断におけるLSMの能力を包括的かつ現実的に評価する。臨床診断の熟練度を評価するため,先進LSMのゼロショット評価を行った。
論文参考訳（メタデータ） (2024-06-14T11:10:17Z)
Towards Reliable Medical Image Segmentation by Modeling Evidential Calibrated Uncertainty [57.023423137202485]
医用画像のセグメンテーションの信頼性に関する懸念が臨床医の間で続いている。本稿では,医療画像セグメンテーションネットワークにシームレスに統合可能な,実装が容易な基礎モデルであるDEviSを紹介する。主観的論理理論を活用することで、医用画像分割の確率と不確実性を明示的にモデル化する。
論文参考訳（メタデータ） (2023-01-01T05:02:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。