論文の概要: CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine
- arxiv url: http://arxiv.org/abs/2605.01011v1
- Date: Fri, 01 May 2026 18:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.53858
- Title: CLEAR: Revealing How Noise and Ambiguity Degrade Reliability in LLMs for Medicine
- Title(参考訳): CLEAR:LLMの騒音とあいまいさがいかに信頼性を低下させるか
- Authors: Kevin H. Guo, Chao Yan, Avinash Baidya, Katherine Brown, Xiang Goa, Juming Xiong, Zhijun Yin, Bradley A. Malin,
- Abstract要約: CLEAR(CLinical Evaluation of Ambiguity and Reliability)フレームワークについて紹介する。
CLEARは、妥当な回答オプションの数、根拠となる真実または棄権オプションの存在、および回答オプションの意味的なフレーミングを混乱させる。
17の医療用大言語モデルで評価された3つのベンチマークにCLEARを適用すると、3つの注目すべき制限が明らかになる。
- 参考スコア(独自算出の注目度): 9.346299965194746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical large language model (LLM) evaluations rely on simplified, exam-style benchmarks that rarely reflect the ambiguity of real-world medical inquiries. We introduce the CLinical Evaluation of Ambiguity and Reliability (CLEAR) framework, which assesses how decision-space presentation, ambiguity, and uncertainty affect LLMs' reasoning on medical benchmarks. CLEAR systematically perturbs (1) the number of plausible answer options, (2) the presence of a ground truth or abstention option, and (3) the semantic framing of answer options. Applying CLEAR on three benchmarks evaluated across 17 LLMs reveals three notable limitations of existing evaluation methods. First, increasing the number of plausible answers degrades a model's ability to identify the correct answer and abstain against incorrect ones. Second, this lack of caution intensifies as the framing of abstention shifts from assertive rejection like "None of the Above" to uncertainty admission like "I don't know" (IDK). Notably, just including IDK in the answer space increases incorrect answer selections. Lastly, we formalize the performance gap between identifying the correct answer and abstaining from incorrect ones as the humility deficit, which worsens with model scale. Our findings reveal limitations in standard medical benchmarks and underscore that scaling alone does not resolve LLM reliability issues.
- Abstract(参考訳): 医学大言語モデル(LLM)の評価は、実世界の医学的問合せの曖昧さをほとんど反映しない、単純化された試験スタイルのベンチマークに依存している。
本稿では,CLEAR(CLinical Evaluation of Ambiguity and Reliability)フレームワークについて紹介する。
CLEAR の体系的摂動(1) 可算解解数,(2) 根拠真理の有無,および (3) 解答のセマンティックフレーミング
CLEARを17 LLMで評価された3つのベンチマークに適用すると、既存の評価手法の3つの注目すべき制限が明らかになる。
第一に、もっともらしい答えの数を増やすことで、モデルが正しい答えを識別し、間違った答えを無視する能力が低下する。
第二に、この注意の欠如は、禁断のフレーミングが、"Noone of the Above"のような断固たる拒絶から、"I don't know" (IDK)のような不確実な受け入れへと移行するにつれて、増す。
特に、答え空間にIDKを含めれば、誤った回答の選択が増加する。
最後に,正解の特定と誤解の棄却との間の性能ギャップを,モデルスケールで悪化する謙虚さの欠陥として形式化する。
以上の結果から,標準医療ベンチマークの限界が明らかとなり,スケーリングだけではLCMの信頼性の問題は解決できないことが示された。
関連論文リスト
- Benchmarking Multi-turn Medical Diagnosis: Hold, Lure, and Self-Correction [72.89352076103889]
大規模言語モデル (LLM) は, 臨床情報がすべて一ターンで提供される場合に, 高い精度で診断を行う。
1,035例からなる高忠実多ターン診断ベンチマークであるMINTを導入する。
診断決定に大きな影響を及ぼす3つの永続的な行動パターンを明らかにする。
論文 参考訳(メタデータ) (2026-04-06T00:23:10Z) - I-CALM: Incentivizing Confidence-Aware Abstention for LLM Hallucination Mitigation [2.688126466709795]
大規模言語モデル(LLM)は、自信はあるが誤った答えをしばしば生み出す。
モデルを変更することなく、即時のみの介入が幻覚リスクを低減できるかどうかを検討する。
結果から,本フレームワークは質問に対する選択的な回答を,再学習なしに改善できることが示された。
論文 参考訳(メタデータ) (2026-04-05T00:15:41Z) - Same Verdict, Different Reasons: LLM-as-a-Judge and Clinician Disagreement on Medical Chatbot Completeness [49.2667937337333]
不完全な患者の医療反応を検出するために,この仮定をストレステストする。
我々は,2つの臨床診断データセットにわたる3つの粒度(General-Likert,Analytical-Rubric,Dynamic-Checklist)と3つのバックボーンモデルを評価する。
論文 参考訳(メタデータ) (2026-03-26T19:01:55Z) - HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment [52.374772443536045]
HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。
HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
論文 参考訳(メタデータ) (2025-10-14T07:13:26Z) - SURE-Med: Systematic Uncertainty Reduction for Enhanced Reliability in Medical Report Generation [2.2185034594788164]
視覚, 分布, 文脈の3つの重要な次元における不確実性を体系的に低減する統合フレームワークSURE-Medを提案する。
視覚的不確実性を軽減するため、Frontal-Aware View Resamplingモジュールはビューアノテーションエラーを修正し、補足ビューから情報的特徴を適応的に選択する。
ラベル分布の不確実性に対処するために,批判的診断文のモデリングを促進させるToken Sensitive Learningの目標を提案する。
文脈不確実性を低減するため、文脈証拠フィルタは、現在の画像と整合する事前情報を検証し、選択的に組み込んで、幻覚を効果的に抑制する。
論文 参考訳(メタデータ) (2025-08-03T09:52:30Z) - AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions [32.871820908561936]
AbstentionBenchは、20の多様なデータセットにわたる禁忌を評価するためのベンチマークである。
微調整による推論は、数学や科学の分野でも無視される。
論文 参考訳(メタデータ) (2025-06-10T17:57:30Z) - Automatic Evaluation of Healthcare LLMs Beyond Question-Answering [0.42131793931438133]
オープンとクローズなベンチマークとメトリクスの相関について検討する。
衛生チェックの更新として、オープン版とクローズド版の両方を備えた新しい医療ベンチマーク、CareQAをリリースする。
本稿では,その制約を緩和するため,オープンエンド評価のための新しい指標であるRelaxed Perplexityを提案する。
論文 参考訳(メタデータ) (2025-02-10T16:52:39Z) - Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations [63.330182403615886]
大きな言語モデル(LLM)の実践的デプロイに対する大きな障壁は、信頼性の欠如である。
このことが特に顕著な3つの状況は、正しさ、未解決の質問に対する幻覚、安全性である。
人間のように、不確実性を理解する能力があるため、私たちが知らない質問への答えを控えるべきです。
論文 参考訳(メタデータ) (2024-04-16T23:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。