論文の概要: Prune 'n Predict: Optimizing LLM Decision-making with Conformal Prediction
- arxiv url: http://arxiv.org/abs/2501.00555v2
- Date: Sat, 12 Jul 2025 18:07:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 14:36:06.784725
- Title: Prune 'n Predict: Optimizing LLM Decision-making with Conformal Prediction
- Title(参考訳): Prune 'n Predict: Conformal PredictionによるLCM決定の最適化
- Authors: Harit Vishwakarma, Alan Mishler, Thomas Cook, Niccolò Dalmasso, Natraj Raman, Sumitra Ganesh,
- Abstract要約: 不正確なアウトプットは、医療や金融といった高リスク領域に重大なリスクをもたらす。
そこで本研究では,可能な選択肢を予測セットに限定することで,質問のEmphconformal revision of question (CROQ)を提案する。
また,CP-OPTを提案する。CP-OPTは,カバー範囲を維持しつつ,設定サイズを最小化するスコアを学習するための最適化フレームワークである。
- 参考スコア(独自算出の注目度): 7.843594672029363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are empowering decision-making in several applications, including tool or API usage and answering multiple-choice questions (MCQs). However, incorrect outputs pose significant risks in high-stakes domains like healthcare and finance. To quantify LLM uncertainty and thereby mitigate these risks, recent works employ conformal prediction (CP), a model- and distribution-agnostic framework that uses LLM outputs to generate a \emph{prediction set} containing the true answer with high probability. Leveraging CP, we propose \emph{conformal revision of questions} (CROQ), which revises the question by narrowing down the available choices to those in the prediction set and asking the LLM the revised question. We expect LLMs to be more accurate on revised questions with fewer choices. Furthermore, we expect CROQ to be effective when the prediction sets from CP are small. Commonly used logit scores often lead to large sets, diminishing CROQ's effectiveness. To overcome this, we propose CP-OPT, an optimization framework to learn scores that minimize set sizes while maintaining coverage. Our extensive experiments on MMLU, ToolAlpaca, and TruthfulQA datasets with multiple LLMs show that CROQ improves accuracy over the standard inference, with more pronounced gains when paired with CP-OPT.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ツールやAPIの使用、マルチチョイス質問(MCQ)への回答など、いくつかのアプリケーションで意思決定を強力にしている。
しかし、誤ったアウトプットは医療や金融といった高リスク領域に重大なリスクをもたらす。
LLMの不確実性を定量化し、これらのリスクを軽減するために、最近の研究では、LCM出力を用いたモデルおよび分布に依存しないフレームワークであるコンフォメーション予測(CP)を用いて、真解を高い確率で含むemph{prediction set}を生成する。
CPの活用により,質問のemph{conformal revision of question} (CROQ) を提案する。
LLMは、より少ない選択肢で修正された質問に対してより正確になることを期待しています。
さらに,CP からの予測セットが小さい場合には,CROQ の有効性が期待できる。
一般的に使用されるロジットスコアはしばしば大きなセットにつながり、CROQの有効性は低下する。
そこで我々はCP-OPTを提案する。CP-OPTは、カバー範囲を維持しながら、設定サイズを最小化するスコアを学習するための最適化フレームワークである。
複数のLLMを用いたMMLU, ToolAlpaca, TruthfulQAデータセットに関する広範な実験により、CROQは標準推定よりも精度を向上し、CP-OPTと組み合わせるとより顕著な利得が得られることが示された。
関連論文リスト
- Conformal Information Pursuit for Interactively Guiding Large Language Models [64.39770942422288]
本稿では,クエリ数の最小化を目的としたシーケンシャルクエリ戦略について検討する。
そのような戦略の1つは情報探索(IP)であり、各反復で情報ゲインを最大化または同等に不確実性を最小化するクエリを選択する。
本稿では,コンフォーマル情報探索法(C-IP)を提案する。
論文 参考訳(メタデータ) (2025-07-04T03:55:39Z) - Conformal Prediction Beyond the Seen: A Missing Mass Perspective for Uncertainty Quantification in Generative Models [20.810300785340072]
Conformal Prediction with Query Oracle (CPQ)は、これらの目的間の最適な相互作用を特徴付けるフレームワークである。
本アルゴリズムは2つの基本原理に基づいて構築されている。一方は最適なクエリポリシーを規定し、他方はクエリされたサンプルから予測セットへの最適マッピングを定義する。
論文 参考訳(メタデータ) (2025-06-05T18:26:14Z) - Self-ensemble: Mitigating Confidence Distortion for Large Language Models [89.03110940871765]
大規模言語モデルでは,複数問合せ質問に対する信頼度歪みが問題となる。
この問題を解決するために自己組織化を提案する。
3つのLLMおよびデータセットの実験結果から,自己アンサンブルが信頼歪問題に包括的に対処できることが示されている。
論文 参考訳(メタデータ) (2025-06-02T17:59:29Z) - Online Conformal Probabilistic Numerics via Adaptive Edge-Cloud Offloading [52.499838151272016]
本研究は, PLS が生成する HPD 集合を, 長期のカバレッジ要件を保証するため, キャリブレーションする手法を提案する。
提案手法は,クラウドからエッジへの散発的なフィードバックを前提としたオンライン共形予測PLS (OCP-PLS) と呼ばれる。
OCP-PLSの有効性は、カバレッジ、予測セットサイズ、クラウド利用のトレードオフに関する洞察をもたらす実験を通じて検証される。
論文 参考訳(メタデータ) (2025-03-18T17:30:26Z) - Statistical Guarantees of Correctness Coverage for Medical Multiple-Choice Question Answering [0.0]
大規模言語モデル(LLM)は、現実の質問応答(QA)アプリケーションにますます多くデプロイされている。
LLMは幻覚や非現実的な情報を生み出すことが証明されており、高い医療業務における信頼性を損なう。
本研究では,CP フレームワークを医療用マルチ選択質問応答 (MCQA) タスクに適用した。
論文 参考訳(メタデータ) (2025-03-07T15:22:10Z) - Robust Conformal Prediction with a Single Binary Certificate [58.450154976190795]
コンフォーマル予測(CP)は、任意のモデルの出力を、真のラベルを(調整可能な)高い確率でカバーすることを保証した予測セットに変換する。
我々は,MCサンプルが著しく低い場合でも,より小さな集合を生成する頑健な共形予測を提案する。
論文 参考訳(メタデータ) (2025-03-07T08:41:53Z) - Learning Conformal Abstention Policies for Adaptive Risk Management in Large Language and Vision-Language Models [3.958317527488534]
大きな言語と視覚言語モデル(LLMs/VLMs)は、安全クリティカルなアプリケーションでますます使われている。
不確かさの定量化は、予測の信頼性を評価するのに役立ち、不確実性が高い場合の回避を可能にする。
本稿では,学習可能な禁忌法を提案し,強化学習(RL)と整形予測(CP)を統合して禁忌閾値を最適化する。
論文 参考訳(メタデータ) (2025-02-08T21:30:41Z) - Online scalable Gaussian processes with conformal prediction for guaranteed coverage [32.21093722162573]
結果として生じる不確実な値の整合性は、学習関数がGPモデルで指定された特性に従うという前提に基づいている。
提案するGPは,分散のない後処理フレームワークである共形予測(CP)を用いて,有意なカバレッジで予測セットを生成する。
論文 参考訳(メタデータ) (2024-10-07T19:22:15Z) - ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。
次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。
実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-29T17:33:07Z) - Verifiably Robust Conformal Prediction [1.391198481393699]
本稿では、ニューラルネットワーク検証手法を利用して、敵攻撃時のカバレッジ保証を回復する新しいフレームワークであるVRCP(Verifiably Robust Conformal Prediction)を紹介する。
私たちのメソッドは、回帰タスクだけでなく、$ell1$, $ell2$, $ellinfty$といった任意のノルムで束縛された摂動をサポートする最初の方法です。
いずれの場合も、VRCPは名目上の範囲を達成し、SotAよりもはるかに効率的で情報的な予測領域が得られる。
論文 参考訳(メタデータ) (2024-05-29T09:50:43Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Equal Opportunity of Coverage in Fair Regression [50.76908018786335]
我々は、予測の不確実性の下で公正な機械学習(ML)を研究し、信頼性と信頼性のある意思決定を可能にする。
本研究は,(1)類似した結果の異なる集団に対するカバー率が近いこと,(2)人口全体のカバー率が一定水準にあること,の2つの特性を達成することを目的としたカバーの平等機会(EOC)を提案する。
論文 参考訳(メタデータ) (2023-11-03T21:19:59Z) - Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs [56.526095828316386]
大規模言語モデル(LLM)の選択予測性能を改善するために,自己評価による適応のための新しいフレームワークを提案する。
提案手法は,様々な質問応答(QA)データセット上で評価し,最先端の選択的予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-18T03:34:59Z) - RR-CP: Reliable-Region-Based Conformal Prediction for Trustworthy
Medical Image Classification [24.52922162675259]
コンフォーマル予測(CP)は、与えられたテストサンプルに対して一連の予測を生成する。
集合のサイズは、予測がどの程度あるかを示す。
信頼度に基づくコンフォーマル予測(RR-CP)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-09T11:14:04Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Uncertainty Quantification with Pre-trained Language Models: A
Large-Scale Empirical Analysis [120.9545643534454]
パイプラインは校正誤差を最小限に抑えることが重要であり、特に安全クリティカルな応用において重要である。
パイプラインの背景には,(1)PLMの選択と(2)サイズ,(3)不確実性定量化器の選択,(4)微調整損失の選択など,さまざまな考察がある。
1) PLM符号化にELECTRAを使用し、(2) 可能であればより大きなPLMを使用し、(3) 不確実性定量化にTemp Scalingを使用し、(4) 微調整にFocal Lossを使用する。
論文 参考訳(メタデータ) (2022-10-10T14:16:01Z) - Few-Shot Calibration of Set Predictors via Meta-Learned
Cross-Validation-Based Conformal Prediction [33.33774397643919]
本稿では,設定した予測サイズを減らすことを目的としたメタ学習ソリューションを提案する。
より効率的なバリデーションベースのCPではなく、クロスバリデーションベースのCP上に構築されている。
これは、厳格なタスク・マージナル保証を減らすのではなく、正式なタスク毎のキャリブレーション保証を保持する。
論文 参考訳(メタデータ) (2022-10-06T17:21:03Z) - Efficient Conformal Prediction via Cascaded Inference with Expanded
Admission [43.596058175459746]
共形予測(CP)のための新しい手法を提案する。
我々は、単一の予測の代わりに、予測候補のセットを特定することを目指している。
この集合は、高い確率で正しい答えを含むことが保証される。
論文 参考訳(メタデータ) (2020-07-06T23:13:07Z) - AutoCP: Automated Pipelines for Accurate Prediction Intervals [84.16181066107984]
本稿では、自動予測のための自動機械学習(Automatic Machine Learning for Conformal Prediction, AutoCP)というAutoMLフレームワークを提案する。
最高の予測モデルを選択しようとする慣れ親しんだAutoMLフレームワークとは異なり、AutoCPは、ユーザが指定したターゲットカバレッジ率を達成する予測間隔を構築する。
さまざまなデータセットでAutoCPをテストしたところ、ベンチマークアルゴリズムを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-06-24T23:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。