論文の概要: Monty Hall and Optimized Conformal Prediction to Improve Decision-Making with LLMs
- arxiv url: http://arxiv.org/abs/2501.00555v1
- Date: Tue, 31 Dec 2024 17:33:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:17:44.178129
- Title: Monty Hall and Optimized Conformal Prediction to Improve Decision-Making with LLMs
- Title(参考訳): LLMによる意思決定改善のためのモンティホールと最適化等角予測
- Authors: Harit Vishwakarma, Alan Mishler, Thomas Cook, Niccolò Dalmasso, Natraj Raman, Sumitra Ganesh,
- Abstract要約: Con conformal prediction (CP) は分布のない不確実性定量化のためのモデルに依存しないフレームワークである。
CP-OPTは、カバー範囲を維持しながら、設定サイズを最小化するスコアを学習するための最適化フレームワークである。
また,可能な選択肢を予測セットに限定することで,問題を修正するために,Emphconformal revision of question (CROQ)を提案する。
- 参考スコア(独自算出の注目度): 7.843594672029363
- License:
- Abstract: Large language models (LLMs) are empowering decision-making in several applications, including tool or API usage and answering multiple-choice questions (MCQs). However, they often make overconfident, incorrect predictions, which can be risky in high-stakes settings like healthcare and finance. To mitigate these risks, recent works have used conformal prediction (CP), a model-agnostic framework for distribution-free uncertainty quantification. CP transforms a \emph{score function} into prediction sets that contain the true answer with high probability. While CP provides this coverage guarantee for arbitrary scores, the score quality significantly impacts prediction set sizes. Prior works have relied on LLM logits or other heuristic scores, lacking quality guarantees. We address this limitation by introducing CP-OPT, an optimization framework to learn scores that minimize set sizes while maintaining coverage. Furthermore, inspired by the Monty Hall problem, we extend CP's utility beyond uncertainty quantification to improve accuracy. We propose \emph{conformal revision of questions} (CROQ) to revise the problem by narrowing down the available choices to those in the prediction set. The coverage guarantee of CP ensures that the correct choice is in the revised question prompt with high probability, while the smaller number of choices increases the LLM's chances of answering it correctly. Experiments on MMLU, ToolAlpaca, and TruthfulQA datasets with Gemma-2, Llama-3 and Phi-3 models show that CP-OPT significantly reduces set sizes while maintaining coverage, and CROQ improves accuracy over the standard inference, especially when paired with CP-OPT scores. Together, CP-OPT and CROQ offer a robust framework for improving both the safety and accuracy of LLM-driven decision-making.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ツールやAPIの使用、マルチチョイス質問(MCQ)への回答など、いくつかのアプリケーションで意思決定を強力にしている。
しかし、医療や金融といった高リスク環境では、過度に信頼され、誤った予測をすることが多い。
これらのリスクを軽減するため、近年の研究では、分布のない不確実性定量化のためのモデルに依存しないフレームワークであるコンフォメーション予測(CP)を用いている。
CP は \emph{score 関数を確率の高い真の答えを含む予測集合に変換する。
CPは任意のスコアに対してこのカバレッジを保証するが、スコアの品質は予測セットのサイズに大きく影響する。
以前の作品はLLMロジットやその他のヒューリスティックスコアに依存しており、品質保証が欠如している。
この制限にはCP-OPTを導入することで対処する。CP-OPTは、カバー範囲を維持しながら設定サイズを最小化するスコアを学習する最適化フレームワークである。
さらに,モンティホール問題に触発されて,不確実な定量化を超えてCPの実用性を拡張し,精度を向上する。
そこで本研究では,質問のemph{conformal revision of question} (CROQ) を提案する。
CPのカバレッジ保証は、正しい選択が高い確率で修正された質問プロンプトにあることを保証します。
MMLU, ToolAlpaca, TruthfulQAデータセットをGemma-2, Llama-3, Phi-3モデルで実験したところ、CP-OPTはカバレッジを維持しながらセットサイズを大幅に削減し、CROQは標準推論よりも精度を向上させる。
CP-OPTとCROQは共に、LCMによる意思決定の安全性と正確性を改善するための堅牢なフレームワークを提供する。
関連論文リスト
- Learning Conformal Abstention Policies for Adaptive Risk Management in Large Language and Vision-Language Models [3.958317527488534]
大きな言語と視覚言語モデル(LLMs/VLMs)は、安全クリティカルなアプリケーションでますます使われている。
不確かさの定量化は、予測の信頼性を評価するのに役立ち、不確実性が高い場合の回避を可能にする。
本稿では,学習可能な禁忌法を提案し,強化学習(RL)と整形予測(CP)を統合して禁忌閾値を最適化する。
論文 参考訳(メタデータ) (2025-02-08T21:30:41Z) - Conformal Prediction Sets with Improved Conditional Coverage using Trust Scores [52.92618442300405]
有限サンプルにおいて、正確に分布のない条件付きカバレッジを達成することは不可能である。
本稿では,最も重要となる範囲を対象とするコンフォメーション予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-17T12:01:56Z) - Online scalable Gaussian processes with conformal prediction for guaranteed coverage [32.21093722162573]
結果として生じる不確実な値の整合性は、学習関数がGPモデルで指定された特性に従うという前提に基づいている。
提案するGPは,分散のない後処理フレームワークである共形予測(CP)を用いて,有意なカバレッジで予測セットを生成する。
論文 参考訳(メタデータ) (2024-10-07T19:22:15Z) - ConU: Conformal Uncertainty in Large Language Models with Correctness Coverage Guarantees [68.33498595506941]
自己整合性理論に基づく新しい不確実性尺度を導入する。
次に,CPアルゴリズムに正当性に整合した不確かさ条件を組み込むことにより,適合性不確かさの基準を策定する。
実証的な評価は、我々の不確実性測定が過去の最先端手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-06-29T17:33:07Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Equal Opportunity of Coverage in Fair Regression [50.76908018786335]
我々は、予測の不確実性の下で公正な機械学習(ML)を研究し、信頼性と信頼性のある意思決定を可能にする。
本研究は,(1)類似した結果の異なる集団に対するカバー率が近いこと,(2)人口全体のカバー率が一定水準にあること,の2つの特性を達成することを目的としたカバーの平等機会(EOC)を提案する。
論文 参考訳(メタデータ) (2023-11-03T21:19:59Z) - PAC Prediction Sets Under Label Shift [52.30074177997787]
予測セットは、個々のラベルではなくラベルのセットを予測することによって不確実性を捉える。
ラベルシフト設定においてPAC保証付き予測セットを構築するための新しいアルゴリズムを提案する。
提案手法を5つのデータセットで評価する。
論文 参考訳(メタデータ) (2023-10-19T17:57:57Z) - RR-CP: Reliable-Region-Based Conformal Prediction for Trustworthy
Medical Image Classification [24.52922162675259]
コンフォーマル予測(CP)は、与えられたテストサンプルに対して一連の予測を生成する。
集合のサイズは、予測がどの程度あるかを示す。
信頼度に基づくコンフォーマル予測(RR-CP)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-09-09T11:14:04Z) - Few-Shot Calibration of Set Predictors via Meta-Learned
Cross-Validation-Based Conformal Prediction [33.33774397643919]
本稿では,設定した予測サイズを減らすことを目的としたメタ学習ソリューションを提案する。
より効率的なバリデーションベースのCPではなく、クロスバリデーションベースのCP上に構築されている。
これは、厳格なタスク・マージナル保証を減らすのではなく、正式なタスク毎のキャリブレーション保証を保持する。
論文 参考訳(メタデータ) (2022-10-06T17:21:03Z) - Efficient Conformal Prediction via Cascaded Inference with Expanded
Admission [43.596058175459746]
共形予測(CP)のための新しい手法を提案する。
我々は、単一の予測の代わりに、予測候補のセットを特定することを目指している。
この集合は、高い確率で正しい答えを含むことが保証される。
論文 参考訳(メタデータ) (2020-07-06T23:13:07Z) - AutoCP: Automated Pipelines for Accurate Prediction Intervals [84.16181066107984]
本稿では、自動予測のための自動機械学習(Automatic Machine Learning for Conformal Prediction, AutoCP)というAutoMLフレームワークを提案する。
最高の予測モデルを選択しようとする慣れ親しんだAutoMLフレームワークとは異なり、AutoCPは、ユーザが指定したターゲットカバレッジ率を達成する予測間隔を構築する。
さまざまなデータセットでAutoCPをテストしたところ、ベンチマークアルゴリズムを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2020-06-24T23:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。