論文の概要: MiRD: Reliable Set-Valued Prediction for Open-Ended Question Answering via Miscoverage Risk Decomposition
- arxiv url: http://arxiv.org/abs/2605.27091v1
- Date: Mon, 25 May 2026 16:16:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.230247
- Title: MiRD: Reliable Set-Valued Prediction for Open-Ended Question Answering via Miscoverage Risk Decomposition
- Title(参考訳): MiRD: ミス発見リスク分解によるオープンエンディング質問応答に対する信頼性の高いセットバリュー予測
- Authors: Anqi Hu, Zhiyuan Wang, Zijun Jia, Bo Fu,
- Abstract要約: MiRDは2段階のフレームワークで、全体的な誤発見をサンプリングの失敗と条件の選択の失敗に分解する。
MiRDは、サンプリングリスク、条件の選択リスク、全体的な誤発見を制御し、PACスタイルの代替よりも厳密な第1ステージ境界を出力する。
- 参考スコア(独自算出の注目度): 9.438776727582418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable set-valued prediction provides a principled way to mitigate hallucinations in open-ended question answering (QA), yet existing conformal approaches typically rely on a fragile premise: finite sampling must already produce at least one admissible candidate, or calibration examples violating this condition are discarded. In this paper, we introduce MiRD, a two-stage framework that decomposes overall miscoverage into sampling failure and conditional selection failure. In Stage I, MiRD establishes an expectation-level marginal upper bound on the probability that finite sampling produces no admissible answer under a fixed budget. In Stage II, conditioned on sampling success, MiRD calibrates a conformal selection threshold using admission-correlated nonconformity scores defined over the full calibration set, thereby preserving calibration-set integrity. Across three open-ended QA datasets and eight models, MiRD controls sampling risk, conditional selection risk, and overall miscoverage, while yielding tighter first-stage bounds than PAC-style alternatives and more adaptive prediction sets than successful-only calibration.
- Abstract(参考訳): 信頼性のある集合値予測は、オープンエンド質問応答(QA)における幻覚を緩和する原則的な方法を提供するが、既存の共形的アプローチは通常、脆弱な前提に依存している:有限サンプリングは、少なくとも1つの許容可能な候補を生成し、この条件に違反する校正例を破棄しなければならない。
本稿では,2段階のフレームワークであるMIRDを紹介し,全体の誤発見をサンプリング失敗と条件選択失敗に分解する。
ステージ I において、MIRD は有限サンプリングが一定の予算の下で許容できる答えを生じない確率に基づいて期待レベル境界を定めている。
サンプリング成功を条件としたステージIIでは、MIRDは完全校正セット上で定義された入場関連非整合スコアを用いてコンフォメーション選択閾値を校正し、校正セットの整合性を維持する。
3つのオープンエンドQAデータセットと8つのモデルにまたがって、MIRDはサンプリングリスク、条件の選択リスク、全体的な誤発見を制御し、PACスタイルの代替モデルよりも厳密な第1ステージ境界と、成功のみのキャリブレーションよりも適応的な予測セットを出力する。
関連論文リスト
- Fair regression under localized demographic parity constraints [9.082079838093371]
F f |S=s (z m ) = $ell$m という形の CDF 制約をグループ的に課する,新規な (ell$, Z)-fair predictor を導入する。
合成データセットと実データセットの実験では、解釈可能なフェアネス精度のトレードオフが示され、決定関連量子またはしきい値に対するターゲット修正が可能である。
論文 参考訳(メタデータ) (2026-03-26T09:21:05Z) - From Calibration to Refinement: Seeking Certainty via Probabilistic Evidence Propagation for Noisy-Label Person Re-Identification [40.73759251488672]
既存のノイズロスのある人物Re-ID法は、ソフトマックス出力を用いた損失補正やサンプル選択方式に依存している。
本稿では,キャリブレーションからリファインメントへ伝播する確率的証拠を通じて確実性を求める2段階フレームワークであるCARE法を提案する。
精製段階では, クリーン試料とノイズ試料をより正確に識別できるエビデンス伝搬精製法(EPR)を設計する。
論文 参考訳(メタデータ) (2026-02-26T15:50:15Z) - LEC: Linear Expectation Constraints for False-Discovery Control in Selective Prediction and Routing Systems [95.35293543918762]
大規模言語モデル(LLM)はしばしば信頼できない答えを生成するが、不確実性のある手法は誤った予測と完全に区別することができない。
我々は、この問題を、偽発見率(FDR)制御のレンズを通して解決し、全ての許容された予測のうち、エラーの割合が目標のリスクレベルを超えないことを保証する。
本稿では,線形期待制約を強制することで,選択予測を制約付き決定問題として再解釈するLECを提案する。
論文 参考訳(メタデータ) (2025-12-01T11:27:09Z) - SAFER: Risk-Constrained Sample-then-Filter in Large Language Models [38.97678256807034]
本稿では,無意識サンプリングと共形フィルタリングを組み合わせた2段階リスク制御フレームワークを提案する。
その結果,SAFERはタスク固有の基準やキャリブレーションテストのスプリット比と互換性があることが判明した。
論文 参考訳(メタデータ) (2025-10-11T12:12:41Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。
我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。
我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文 参考訳(メタデータ) (2025-04-19T03:01:45Z) - Distribution-free uncertainty quantification for classification under
label shift [105.27463615756733]
2つの経路による分類問題に対する不確実性定量化(UQ)に焦点を当てる。
まず、ラベルシフトはカバレッジとキャリブレーションの低下を示すことでuqを損なうと論じる。
これらの手法を, 理論上, 分散性のない枠組みで検討し, その優れた実用性を示す。
論文 参考訳(メタデータ) (2021-03-04T20:51:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。