論文の概要: Statistical Guarantees of Correctness Coverage for Medical Multiple-Choice Question Answering
- arxiv url: http://arxiv.org/abs/2503.05505v1
- Date: Fri, 07 Mar 2025 15:22:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 15:56:56.393358
- Title: Statistical Guarantees of Correctness Coverage for Medical Multiple-Choice Question Answering
- Title(参考訳): 医療用多項目質問応答における正当性カバレッジの統計的保証
- Authors: Yusong Ke,
- Abstract要約: 大規模言語モデル(LLM)は、現実の質問応答(QA)アプリケーションにますます多くデプロイされている。
LLMは幻覚や非現実的な情報を生み出すことが証明されており、高い医療業務における信頼性を損なう。
本研究では,CP フレームワークを医療用マルチ選択質問応答 (MCQA) タスクに適用した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large language models (LLMs) are increasingly deployed in real-world question-answering (QA) applications. However, LLMs have been proven to generate hallucinations and nonfactual information, undermining their trustworthiness in high-stakes medical tasks. Conformal prediction (CP) is well-known to be model-agnostic and distribution-free, which creates statistically rigorous prediction sets in classification tasks. In this work, we for the first time adapt the CP framework to medical multiple-choice question-answering (MCQA) tasks, by correlating the nonconformity score with the frequency score of correct options grounded in self-consistency theory, assuming no access to internal model information. Considering that the adapted CP framework can only control the (mis)coverage rate, we employ a risk control framework, which can manage task-specific metrics by devising a monotonically decreasing loss function. We evaluate our framework on 3 popular medical MCQA datasets utilizing 4 ``off-the-shelf'' LLMs. Empirical results demonstrate that we achieve user-specified average (or marginal) error rates on the test set. Furthermore, we observe that the average prediction set size (APSS) on the test set decreases as the risk level increases, which concludes a promising evaluation metric for the uncertainty of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、現実の質問応答(QA)アプリケーションにますます多くデプロイされている。
しかし、LSMは幻覚や非現実的な情報を生み出すことが証明されており、高い医療業務における信頼性を損なう。
コンフォーマル予測(CP)は、分類タスクにおいて統計的に厳密な予測セットを生成するモデル非依存かつ分布自由であることが知られている。
本研究では,非整合性スコアと自己整合性理論に基づく正しい選択肢の周波数スコアとを相関させ,内部モデル情報にアクセスできないと仮定して,CPフレームワークを医療マルチチョイス質問応答(MCQA)タスクに適用した。
適応されたCPフレームワークは(ミス)カバレッジ率のみを制御できるので、単調に減少する損失関数を考案し、タスク固有のメトリクスを管理できるリスク制御フレームワークを用いています。
筆者らは,4つの 'off-the-shelf'' の LLM を用いて,3つの医用MCQAデータセットの枠組みを評価した。
実験結果から,テストセットにおけるユーザ指定平均(あるいは限界値)誤差率が得られた。
さらに,リスクレベルの増加に伴い,テストセットの平均予測セットサイズ(APSS)が減少し,LCMの不確実性に対する有望な評価基準が得られた。
関連論文リスト
- PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Monty Hall and Optimized Conformal Prediction to Improve Decision-Making with LLMs [7.843594672029363]
Con conformal prediction (CP) は分布のない不確実性定量化のためのモデルに依存しないフレームワークである。
CP-OPTは、カバー範囲を維持しながら、設定サイズを最小化するスコアを学習するための最適化フレームワークである。
また,可能な選択肢を予測セットに限定することで,問題を修正するために,Emphconformal revision of question (CROQ)を提案する。
論文 参考訳(メタデータ) (2024-12-31T17:33:12Z) - Evaluating language models as risk scores [23.779329697527054]
質問応答 LLM を用いてリスクスコアを生成するソフトウェアパッケージである folktexts を紹介する。
提案した5つのベンチマークタスクにまたがって17の最近のLCMを評価した。
複数選択質問応答によるゼロショットリスクスコアは高い予測信号を持つが、広く誤校正されている。
論文 参考訳(メタデータ) (2024-07-19T18:13:37Z) - ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。
次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。
実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-29T17:33:07Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Query Performance Prediction using Relevance Judgments Generated by Large Language Models [53.97064615557883]
自動生成関連判定(QPP-GenRE)を用いたQPPフレームワークを提案する。
QPP-GenREは、QPPを独立したサブタスクに分解し、ランクリスト内の各項目の関連性を所定のクエリに予測する。
これにより、生成した関連判断を擬似ラベルとして利用して、任意のIR評価尺度を予測することができる。
論文 参考訳(メタデータ) (2024-04-01T09:33:05Z) - Word-Sequence Entropy: Towards Uncertainty Estimation in Free-Form Medical Question Answering Applications and Beyond [52.246494389096654]
本稿ではワードシーケンスエントロピー(WSE)を紹介し,単語レベルとシーケンスレベルの不確実性を校正する手法を提案する。
We compare WSE with six baseline method on five free-form medical QA datasets, using 7 popular large language model (LLMs)。
論文 参考訳(メタデータ) (2024-02-22T03:46:08Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Improving Trustworthiness of AI Disease Severity Rating in Medical
Imaging with Ordinal Conformal Prediction Sets [0.7734726150561088]
統計的に厳密な不確実性定量化の欠如は、AI結果の信頼を損なう重要な要因である。
分布自由不確実性定量化の最近の進歩は、これらの問題に対する実用的な解決策である。
本稿では, 正しい狭窄の重症度を含むことが保証される順序予測セットを形成する手法を実証する。
論文 参考訳(メタデータ) (2022-07-05T18:01:20Z) - Modeling Disagreement in Automatic Data Labelling for Semi-Supervised
Learning in Clinical Natural Language Processing [2.016042047576802]
放射線学報告における観測検出問題に応用した最先端の予測モデルからの不確実性推定の品質について検討する。
論文 参考訳(メタデータ) (2022-05-29T20:20:49Z) - Distribution-Free Federated Learning with Conformal Predictions [0.0]
フェデレートラーニングは、患者のプライバシーを維持しながら、別々の機関のデータセットを活用することを目的としている。
キャリブレーションの低さと解釈可能性の欠如は、フェデレートされたモデルの臨床実践への広範な展開を妨げる可能性がある。
本稿では,適応型コンフォメーション・フレームワークを連携学習に組み込むことにより,これらの課題に対処することを提案する。
論文 参考訳(メタデータ) (2021-10-14T18:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。