論文の概要: Correctness Coverage Evaluation for Medical Multiple-Choice Question Answering Based on the Enhanced Conformal Prediction Framework
- arxiv url: http://arxiv.org/abs/2503.05505v2
- Date: Thu, 08 May 2025 16:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 15:15:32.922546
- Title: Correctness Coverage Evaluation for Medical Multiple-Choice Question Answering Based on the Enhanced Conformal Prediction Framework
- Title(参考訳): 拡張等角予測フレームワークに基づく医療用多項目質問応答の正当性カバレッジ評価
- Authors: Yusong Ke, Hongru Lin, Yuting Ruan, Junya Tang, Li Li,
- Abstract要約: 大規模言語モデル(LLM)は、医療質問応答(QA)のシナリオでますます採用されている。
LLMは幻覚や非現実的な情報を生成でき、高い医療業務における信頼性を損なう。
本稿では,医療用マルチ選択質問応答タスクのための拡張型コンフォーマル予測フレームワークを提案する。
- 参考スコア(独自算出の注目度): 2.9599960287815144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly adopted in medical question-answering (QA) scenarios. However, LLMs can generate hallucinations and nonfactual information, undermining their trustworthiness in high-stakes medical tasks. Conformal Prediction (CP) provides a statistically rigorous framework for marginal (average) coverage guarantees but has limited exploration in medical QA. This paper proposes an enhanced CP framework for medical multiple-choice question-answering (MCQA) tasks. By associating the non-conformance score with the frequency score of correct options and leveraging self-consistency, the framework addresses internal model opacity and incorporates a risk control strategy with a monotonic loss function. Evaluated on MedMCQA, MedQA, and MMLU datasets using four off-the-shelf LLMs, the proposed method meets specified error rate guarantees while reducing average prediction set size with increased risk level, offering a promising uncertainty evaluation metric for LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、医療質問応答(QA)のシナリオでますます採用されている。
しかし、LSMは幻覚や非現実的な情報を生成でき、高い医療業務における信頼性を損なう。
コンフォーマル予測(CP)は、限界範囲(平均値)のカバレッジを保証するための統計的に厳格な枠組みを提供するが、医学的QAでは限定的な探索がある。
本稿では,MCQAタスクのための拡張CPフレームワークを提案する。
非適合スコアを正しいオプションの周波数スコアに関連付け、自己整合性を活用することにより、内部モデル不透明度に対処し、モノトニック損失関数にリスク制御戦略を組み込む。
MedMCQA, MedQA, MMLUデータセットを4つの既成LLMを用いて評価し, 提案手法は平均予測セットサイズを低減し, リスクレベルを増大させるとともに, LLMに対する確実な不確実性評価指標を提供する。
関連論文リスト
- Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Monty Hall and Optimized Conformal Prediction to Improve Decision-Making with LLMs [7.843594672029363]
Con conformal prediction (CP) は分布のない不確実性定量化のためのモデルに依存しないフレームワークである。
CP-OPTは、カバー範囲を維持しながら、設定サイズを最小化するスコアを学習するための最適化フレームワークである。
また,可能な選択肢を予測セットに限定することで,問題を修正するために,Emphconformal revision of question (CROQ)を提案する。
論文 参考訳(メタデータ) (2024-12-31T17:33:12Z) - Evaluating language models as risk scores [23.779329697527054]
質問応答 LLM を用いてリスクスコアを生成するソフトウェアパッケージである folktexts を紹介する。
提案した5つのベンチマークタスクにまたがって17の最近のLCMを評価した。
複数選択質問応答によるゼロショットリスクスコアは高い予測信号を持つが、広く誤校正されている。
論文 参考訳(メタデータ) (2024-07-19T18:13:37Z) - ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。
次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。
実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-29T17:33:07Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いたQPPフレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
これにより、生成した関連判断を擬似ラベルとして利用して、任意のIR評価尺度を予測することができる。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form Medical Question Answering Applications and Beyond [52.246494389096654]
本稿ではワードシーケンスエントロピー(WSE)を紹介し,単語レベルとシーケンスレベルの不確実性を校正する手法を提案する。
We compare WSE with six baseline method on five free-form medical QA datasets, using 7 popular large language model (LLMs)。
論文 参考訳(メタデータ) (2024-02-22T03:46:08Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Improving Trustworthiness of AI Disease Severity Rating in Medical
Imaging with Ordinal Conformal Prediction Sets [0.7734726150561088]
統計的に厳密な不確実性定量化の欠如は、AI結果の信頼を損なう重要な要因である。
分布自由不確実性定量化の最近の進歩は、これらの問題に対する実用的な解決策である。
本稿では, 正しい狭窄の重症度を含むことが保証される順序予測セットを形成する手法を実証する。
論文 参考訳(メタデータ) (2022-07-05T18:01:20Z) - Modeling Disagreement in Automatic Data Labelling for Semi-Supervised
Learning in Clinical Natural Language Processing [2.016042047576802]
放射線学報告における観測検出問題に応用した最先端の予測モデルからの不確実性推定の品質について検討する。
論文 参考訳(メタデータ) (2022-05-29T20:20:49Z) - Distribution-Free Federated Learning with Conformal Predictions [0.0]
フェデレートラーニングは、患者のプライバシーを維持しながら、別々の機関のデータセットを活用することを目的としている。
キャリブレーションの低さと解釈可能性の欠如は、フェデレートされたモデルの臨床実践への広範な展開を妨げる可能性がある。
本稿では,適応型コンフォメーション・フレームワークを連携学習に組み込むことにより,これらの課題に対処することを提案する。
論文 参考訳(メタデータ) (2021-10-14T18:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。