論文の概要: Set-Valued Prediction for Large Language Models with Feasibility-Aware Coverage Guarantees
- arxiv url: http://arxiv.org/abs/2603.22966v1
- Date: Tue, 24 Mar 2026 09:00:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.392936
- Title: Set-Valued Prediction for Large Language Models with Feasibility-Aware Coverage Guarantees
- Title(参考訳): 実現可能性を考慮した包絡保証付き大規模言語モデルの集合値予測
- Authors: Ye Li, Anqi Hu, Yuanchang Ye, Shiyan Tong, Zhiyuan Wang, Bo Fu,
- Abstract要約: 本稿では,設定値予測のための原則的フレームワークを提案する。
LLM生成の有限サンプリングの性質を考えると、カバレッジは必ずしも達成可能であるとは限らない。
次に,サンプル応答から予測セットを構成するデータ駆動キャリブレーション手法を開発した。
- 参考スコア(独自算出の注目度): 11.874705280173387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) inherently operate over a large generation space, yet conventional usage typically reports the most likely generation (MLG) as a point prediction, which underestimates the model's capability: although the top-ranked response can be incorrect, valid answers may still exist within the broader output space and can potentially be discovered through repeated sampling. This observation motivates moving from point prediction to set-valued prediction, where the model produces a set of candidate responses rather than a single MLG. In this paper, we propose a principled framework for set-valued prediction, which provides feasibility-aware coverage guarantees. We show that, given the finite-sampling nature of LLM generation, coverage is not always achievable: even with multiple samplings, LLMs may fail to yield an acceptable response for certain questions within the sampled candidate set. To address this, we establish a minimum achievable risk level (MRL), below which statistical coverage guarantees cannot be satisfied. Building on this insight, we then develop a data-driven calibration procedure that constructs prediction sets from sampled responses by estimating a rigorous threshold, ensuring that the resulting set contains a correct answer with a desired probability whenever the target risk level is feasible. Extensive experiments on six language generation tasks with five LLMs demonstrate both the statistical validity and the predictive efficiency of our framework.
- Abstract(参考訳): 大規模言語モデル(LLM)は本質的には大きな世代空間上で機能するが、従来の使用法では、最も可能性の高い世代(MLG)をポイント予測として報告しており、これはモデルの性能を過小評価している。
この観測は、ポイント予測からセット値予測への移動を動機付け、モデルが単一のMLGではなく、一連の候補応答を生成する。
本稿では,設定値予測のための基本的フレームワークを提案する。
LLM生成の有限サンプリングの性質を考えると、カバレッジは必ずしも達成可能であるとは限らない。
これを解決するために、統計的カバレッジ保証を満足できない最小到達可能なリスクレベル(MRL)を確立する。
この知見に基づいて、厳密な閾値を推定することにより、サンプリングされた応答から予測セットを構成するデータ駆動キャリブレーション手法を開発し、ターゲットのリスクレベルが実現可能であれば、正しい回答を所望の確率で含むことを保証する。
5つのLDMを用いた6つの言語生成タスクに関する大規模な実験は、我々のフレームワークの統計的妥当性と予測効率の両方を実証している。
関連論文リスト
- BEAVER: An Efficient Deterministic LLM Verifier [11.949243456810263]
本稿では,大規模言語モデルに基づく決定論的,健全な確率境界を計算するための最初の実践的フレームワークBEAVERを提案する。
検証問題を形式化し、アプローチの健全性を証明し、BEAVERを正当性検証、プライバシ検証、セキュアなコード生成タスクで評価する。
論文 参考訳(メタデータ) (2025-12-05T05:34:06Z) - COIN: Uncertainty-Guarding Selective Question Answering for Foundation Models with Provable Risk Guarantees [51.5976496056012]
COINは、統計的に有効な閾値を校正し、質問毎に1つの生成された回答をフィルタリングする不確実性保護選択フレームワークである。
COINはキャリブレーションセット上で経験的誤差率を推定し、信頼区間法を適用して真誤差率に高い確率上界を確立する。
リスク管理におけるCOINの堅牢性,許容回答を維持するための強いテストタイムパワー,キャリブレーションデータによる予測効率を実証する。
論文 参考訳(メタデータ) (2025-06-25T07:04:49Z) - Conformal Generative Modeling with Improved Sample Efficiency through Sequential Greedy Filtering [55.15192437680943]
生成モデルは出力に対する厳密な統計的保証を欠いている。
厳密な統計的保証を満たす予測セットを生成する逐次共形予測法を提案する。
このことは、高い確率で予測セットが少なくとも1つの許容可能な(または有効な)例を含むことを保証している。
論文 参考訳(メタデータ) (2024-10-02T15:26:52Z) - Quantifying Prediction Consistency Under Fine-Tuning Multiplicity in Tabular LLMs [10.494477811252034]
微調整多重度は分類タスクにおけるタブラル LLM に現れる。
我々の研究は、タブラルLLMにおける微調整多重性というこのユニークな挑戦を定式化する。
本稿では,コストのかかるモデル再訓練を伴わずに,個々の予測の一貫性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。