論文の概要: Conformal P-Value in Multiple-Choice Question Answering Tasks with Provable Risk Control
- arxiv url: http://arxiv.org/abs/2508.10022v1
- Date: Thu, 07 Aug 2025 16:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.016746
- Title: Conformal P-Value in Multiple-Choice Question Answering Tasks with Provable Risk Control
- Title(参考訳): 確率的リスク制御を伴う複数項目質問応答課題におけるコンフォーマルP値
- Authors: Yuanchang Ye,
- Abstract要約: 本研究では,多目的質問応答(MCQA)における大規模言語モデル(LLM)の信頼性向上を目的とした,テスト強化型コンフォメーション予測(CP)フレームワークを提案する。
CPは予測セットに対して統計的に厳格な限界被覆保証を提供し、重要試験は確立された統計的厳密さを提供する。
本研究は,高度QAアプリケーションにおける信頼性の高いLCMデプロイメントの統計的枠組みを確立する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study introduces a significance testing-enhanced conformal prediction (CP) framework to improve trustworthiness of large language models (LLMs) in multiple-choice question answering (MCQA). While LLMs have been increasingly deployed in disciplinary QA scenarios, hallucination and nonfactual generation substantially compromise response reliability. Although CP provides statistically rigorous marginal coverage guarantees for prediction sets, and significance testing offers established statistical rigor, their synergistic integration remains unexplored. To mitigate hallucination and factual inaccuracies, our framework integrates $p$-value computation with conformity scoring through self-consistency resampling of MCQA responses. This approach calculates option frequencies to address LLMs' black-box nature, subsequently constructing prediction sets via null hypothesis testing ($\mathcal{H}_0$) with empirically derived $p$-values. Evaluations on MMLU and MMLU-Pro benchmarks using off-the-shelf LLMs demonstrate: (1) The enhanced CP achieves user-specified empirical miscoverage rates; (2) Test-set average prediction set size (APSS) decreases monotonically with increasing risk levels ($\alpha$), validating APSS as an effective uncertainty metric. This work establishes a principled statistical framework for trustworthy LLM deployment in high-stakes QA applications.
- Abstract(参考訳): 本研究では,大規模言語モデル (LLM) の信頼性を向上させるために,多目的質問応答 (MCQA) におけるテスト強化型コンフォメーション予測 (CP) フレームワークを提案する。
LLMは、ディシプリナリーQAシナリオにますますデプロイされているが、幻覚と非実効生成は、相当に妥協応答の信頼性を損なう。
CPは予測セットに対して統計的に厳密な境界被覆保証を提供し、重要度試験は確立された統計的厳密さを提供するが、それらの相乗的統合は未探索のままである。
幻覚と事実的不正確性を緩和するため,MCQA応答の自己整合性再サンプリングにより,$p$-value計算と整合性スコアを統合した。
このアプローチは、LCMのブラックボックスの性質に対処するオプション周波数を計算し、その後、実験的に導出された$p$-値を持つnull仮説テスト($\mathcal{H}_0$)によって予測セットを構築する。
MMLU と MMLU-Pro ベンチマークの評価は,(1) 改良された CP がユーザ固有の経験的誤発見率を達成すること,(2) テストセット平均予測セットサイズ(APSS) が単調に減少し,リスクレベル(\alpha$) が増加すること,APSS を有効不確実性指標として検証すること,などを示している。
本研究は,高スループットQAアプリケーションにおける信頼性の高いLLMデプロイメントのための,信頼性の高い統計フレームワークを確立する。
関連論文リスト
- Conformal Sets in Multiple-Choice Question Answering under Black-Box Settings with Provable Coverage Guarantees [5.09580026885155]
ブラックボックス設定下での周波数に基づく不確実性定量化手法を提案する。
提案手法では,各入力に対するモデル出力分布の独立サンプリングを行う。
周波数に基づくPEは、正しい予測と誤予測の区別においてロジットに基づくPEよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-07T16:22:49Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Data-Driven Calibration of Prediction Sets in Large Vision-Language Models Based on Inductive Conformal Prediction [0.0]
動的しきい値キャリブレーションとクロスモーダル整合性検証を統合したモデル非依存不確実性定量化法を提案する。
このフレームワークは、様々なキャリブレーションとテストの分割比で安定したパフォーマンスを実現し、医療、自律システム、その他の安全に敏感な領域における現実的な展開の堅牢性を強調している。
この研究は、マルチモーダルAIシステムにおける理論的信頼性と実用性の間のギャップを埋め、幻覚検出と不確実性を考慮した意思決定のためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-24T15:39:46Z) - Correctness Coverage Evaluation for Medical Multiple-Choice Question Answering Based on the Enhanced Conformal Prediction Framework [2.9599960287815144]
大規模言語モデル(LLM)は、医療質問応答(QA)のシナリオでますます採用されている。
LLMは幻覚や非現実的な情報を生成でき、高い医療業務における信頼性を損なう。
本稿では,医療用マルチ選択質問応答タスクのための拡張型コンフォーマル予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-07T15:22:10Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。
次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。
実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-29T17:33:07Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。