論文の概要: Interpretable Probability Estimation with LLMs via Shapley Reconstruction
- arxiv url: http://arxiv.org/abs/2601.09151v1
- Date: Wed, 14 Jan 2026 04:45:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.266295
- Title: Interpretable Probability Estimation with LLMs via Shapley Reconstruction
- Title(参考訳): シェープリコンストラクションによるLCMの解釈可能な確率推定
- Authors: Yang Nan, Qihao Wen, Jiahao Wang, Pengfei He, Ravi Tandon, Yong Ge, Han Xu,
- Abstract要約: PRISM: シェープ測度による確率再構成は、確率推定に透明性と精度をもたらすフレームワークです。
実験では,PRISMにより直接的プロンプトよりも予測精度が向上することを示した。
ケーススタディでは、個々の要因が最終見積もりをどう形成するかを可視化し、LCMに基づく意思決定支援システムの信頼構築を支援する。
- 参考スコア(独自算出の注目度): 21.224475598322538
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) demonstrate potential to estimate the probability of uncertain events, by leveraging their extensive knowledge and reasoning capabilities. This ability can be applied to support intelligent decision-making across diverse fields, such as financial forecasting and preventive healthcare. However, directly prompting LLMs for probability estimation faces significant challenges: their outputs are often noisy, and the underlying predicting process is opaque. In this paper, we propose PRISM: Probability Reconstruction via Shapley Measures, a framework that brings transparency and precision to LLM-based probability estimation. PRISM decomposes an LLM's prediction by quantifying the marginal contribution of each input factor using Shapley values. These factor-level contributions are then aggregated to reconstruct a calibrated final estimate. In our experiments, we demonstrate PRISM improves predictive accuracy over direct prompting and other baselines, across multiple domains including finance, healthcare, and agriculture. Beyond performance, PRISM provides a transparent prediction pipeline: our case studies visualize how individual factors shape the final estimate, helping build trust in LLM-based decision support systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、その広範な知識と推論能力を活用することで、不確実な事象の確率を推定する可能性を示す。
この能力は、金融予測や予防医療など、さまざまな分野におけるインテリジェントな意思決定を支援するために応用できる。
しかし、確率推定のために直接 LLM を誘導することは、しばしばノイズが多く、基礎となる予測プロセスが不透明である、重大な課題に直面している。
本稿では,LLMに基づく確率推定に透明性と精度をもたらすフレームワークであるShapley Measuresによる確率再構成を提案する。
PRISM はシェープリー値を用いて各入力係数の限界寄与を定量化することにより LLM の予測を分解する。
これらの因子レベルの貢献は、キャリブレーションされた最終見積を再構築するために集約される。
本実験では,ファイナンス,医療,農業など複数の分野において,直接的プロンプトやその他のベースラインよりも予測精度が向上することが実証された。
私たちのケーススタディでは、個々の要因が最終見積もりをどのように形成するかを可視化し、LCMベースの意思決定支援システムへの信頼の構築を支援しています。
関連論文リスト
- The Forecast Critic: Leveraging Large Language Models for Poor Forecast Identification [74.64864354503204]
本稿では,Large Language Models (LLM) を利用した予測自動監視システムであるThe Forecast Criticを提案する。
LLMの時系列予測品質を評価する能力を評価する。
合成および実世界の予測データを含む3つの実験を行った。
論文 参考訳(メタデータ) (2025-12-12T21:59:53Z) - Conformal P-Value in Multiple-Choice Question Answering Tasks with Provable Risk Control [0.0]
本研究では,多目的質問応答(MCQA)における大規模言語モデル(LLM)の信頼性向上を目的とした,テスト強化型コンフォメーション予測(CP)フレームワークを提案する。
CPは予測セットに対して統計的に厳格な限界被覆保証を提供し、重要試験は確立された統計的厳密さを提供する。
本研究は,高度QAアプリケーションにおける信頼性の高いLCMデプロイメントの統計的枠組みを確立する。
論文 参考訳(メタデータ) (2025-08-07T16:46:47Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Quantifying Prediction Consistency Under Fine-Tuning Multiplicity in Tabular LLMs [10.494477811252034]
微調整多重度は分類タスクにおけるタブラル LLM に現れる。
我々の研究は、タブラルLLMにおける微調整多重性というこのユニークな挑戦を定式化する。
本稿では,コストのかかるモデル再訓練を伴わずに,個々の予測の一貫性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - BIRD: A Trustworthy Bayesian Inference Framework for Large Language Models [52.46248487458641]
予測モデルは、現実世界のタスクで不完全な情報を扱う必要があることが多い。
現在の大規模言語モデル(LLM)は正確な推定には不十分である。
本稿では,新しい確率的推論フレームワークBIRDを提案する。
論文 参考訳(メタデータ) (2024-04-18T20:17:23Z) - Beyond Probabilities: Unveiling the Misalignment in Evaluating Large Language Models [24.445829787297658]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な機能を示している。
本研究の目的は,複数選択質問(MCQ)におけるLCMを用いた確率に基づく評価手法の有効性を検討することである。
実験により,有意な確率ベース評価法が生成に基づく予測と不適切に一致していることが判明した。
論文 参考訳(メタデータ) (2024-02-21T15:58:37Z) - Decomposing Uncertainty for Large Language Models through Input Clarification Ensembling [69.83976050879318]
大規模言語モデル(LLM)では、不確実性の原因を特定することが、信頼性、信頼性、解釈可能性を改善するための重要なステップである。
本稿では,LLMのための不確実性分解フレームワークについて述べる。
提案手法は,入力に対する一連の明確化を生成し,それらをLLMに入力し,対応する予測をアンサンブルする。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。