論文の概要: COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees
- arxiv url: http://arxiv.org/abs/2506.20178v1
- Date: Wed, 25 Jun 2025 07:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.637304
- Title: COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees
- Title(参考訳): COIN:確率的リスク保証を有する基礎モデルに対する不確実性回避選択質問応答
- Authors: Zhiyuan Wang, Jinhao Duan, Qingni Wang, Xiaofeng Zhu, Tianlong Chen, Xiaoshuang Shi, Kaidi Xu,
- Abstract要約: COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
- 参考スコア(独自算出の注目度): 51.5976496056012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Uncertainty quantification (UQ) for foundation models is essential to identify and mitigate potential hallucinations in automatically generated text. However, heuristic UQ approaches lack formal guarantees for key metrics such as the false discovery rate (FDR) in selective prediction. Previous work adopts the split conformal prediction (SCP) framework to ensure desired coverage of admissible answers by constructing prediction sets, but these sets often contain incorrect candidates, limiting their practical utility. To address this, we propose COIN, an uncertainty-guarding selection framework that calibrates statistically valid thresholds to filter a single generated answer per question under user-specified FDR constraints. COIN estimates the empirical error rate on a calibration set and applies confidence interval methods such as Clopper-Pearson to establish a high-probability upper bound on the true error rate (i.e., FDR). This enables the selection of the largest uncertainty threshold that ensures FDR control on test data while significantly increasing sample retention. We demonstrate COIN's robustness in risk control, strong test-time power in retaining admissible answers, and predictive efficiency under limited calibration data across both general and multimodal text generation tasks. Furthermore, we show that employing alternative upper bound constructions and UQ strategies can further boost COIN's power performance, which underscores its extensibility and adaptability to diverse application scenarios.
- Abstract(参考訳): 基礎モデルの不確実性定量化(UQ)は、自動生成テキストにおける潜在的幻覚を識別し緩和するために不可欠である。
しかし、ヒューリスティックなUQアプローチは、選択的予測における偽発見率(FDR)のような重要な指標に対する正式な保証を欠いている。
従来の作業では、予測セットを構築することで許容可能な回答の望ましいカバレッジを確保するために、分割共形予測(SCP)フレームワークを採用していたが、これらのセットにはしばしば誤った候補が含まれており、実用性が制限されている。
これを解決するために,ユーザが指定したFDR制約の下で,統計的に有効なしきい値のキャリブレーションを行い,一つの回答をフィルタする不確実性保護選択フレームワークであるCOINを提案する。
COINはキャリブレーションセット上で経験的誤差率を推定し、Cropper-Pearsonのような信頼区間法を適用して真誤差率(すなわちFDR)の高確率上限を確立する。
これにより、サンプル保持を大幅に増加させながら、テストデータに対するFDR制御を確実にする最大の不確実性しきい値の選択が可能になる。
リスク管理におけるCOINの堅牢性,許容可能な回答を維持するための強いテストタイムパワー,および一般的なテキスト生成タスクとマルチモーダルテキスト生成タスクの限定キャリブレーションデータに基づく予測効率を示す。
さらに、代替の上界構造とUQ戦略を用いることで、COINのパワーパフォーマンスをさらに向上し、多様なアプリケーションシナリオへの拡張性と適応性を裏付けることを示す。
関連論文リスト
- When Can We Reuse a Calibration Set for Multiple Conformal Predictions? [0.0]
我々は,e-conformal predictionとHoeffdingの不等式が組み合わさって,単一校正集合の繰り返し使用を可能にすることを示す。
我々は、ディープニューラルネットワークをトレーニングし、キャリブレーションセットを使用して、Hoeffdingの補正を推定する。
この補正により、修正マルコフの不等式を適用することができ、定量化された信頼度を持つ予測セットを構築することができる。
論文 参考訳(メタデータ) (2025-06-24T14:57:25Z) - SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。
我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。
我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文 参考訳(メタデータ) (2025-04-19T03:01:45Z) - Online scalable Gaussian processes with conformal prediction for guaranteed coverage [32.21093722162573]
結果として生じる不確実な値の整合性は、学習関数がGPモデルで指定された特性に従うという前提に基づいている。
提案するGPは,分散のない後処理フレームワークである共形予測(CP)を用いて,有意なカバレッジで予測セットを生成する。
論文 参考訳(メタデータ) (2024-10-07T19:22:15Z) - ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。
次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。
実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-29T17:33:07Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z) - Adaptive Conformal Prediction by Reweighting Nonconformity Score [0.0]
我々は、QRF(Quantile Regression Forest)を用いて、不整合スコアの分布を学習し、QRFの重みを利用して、テストポイントに類似した残差を持つサンプルにより重要度を割り当てる。
提案手法は,仮定のない有限標本境界範囲と訓練条件範囲を満足し,適切な仮定の下で条件付き範囲を確保できる。
論文 参考訳(メタデータ) (2023-03-22T16:42:19Z) - Error-based Knockoffs Inference for Controlled Feature Selection [49.99321384855201]
本手法では, ノックオフ特徴量, エラーベース特徴重要度統計量, ステップダウン手順を一体化して, エラーベースのノックオフ推定手法を提案する。
提案手法では回帰モデルを指定する必要はなく,理論的保証で特徴選択を処理できる。
論文 参考訳(メタデータ) (2022-03-09T01:55:59Z) - Efficient Conformal Prediction via Cascaded Inference with Expanded
Admission [43.596058175459746]
共形予測(CP)のための新しい手法を提案する。
我々は、単一の予測の代わりに、予測候補のセットを特定することを目指している。
この集合は、高い確率で正しい答えを含むことが保証される。
論文 参考訳(メタデータ) (2020-07-06T23:13:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。