論文の概要: QuantSightBench: Evaluating LLM Quantitative Forecasting with Prediction Intervals
- arxiv url: http://arxiv.org/abs/2604.15859v1
- Date: Fri, 17 Apr 2026 09:06:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.847597
- Title: QuantSightBench: Evaluating LLM Quantitative Forecasting with Prediction Intervals
- Title(参考訳): QuantSightBench:予測間隔によるLLM定量予測の評価
- Authors: Jeremy Qin, Maksym Andriushchenko,
- Abstract要約: 数値予測のための点推定よりも適切な評価形式として予測区間を提案する。
この能力を評価するために、新しいベンチマークQuantSightBenchを導入し、複数の設定下でフロンティアモデルを評価する。
評価されたフロンティアモデルとオープンウェイトモデルのうち、90%のカバレッジ目標を達成できず、トップパフォーマーのジェミニ3.1 Pro(79.1%)、Grok4(76.4%)、GPT-5.4(75.3%)はいずれも少なくとも10ポイント不足している。
- 参考スコア(独自算出の注目度): 18.055205233907248
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Forecasting has become a natural benchmark for reasoning under uncertainty. Yet existing evaluations of large language models remain limited to judgmental tasks in simple formats, such as binary or multiple-choice questions. In practice, however, forecasting spans a far broader scope. Across domains such as economics, public health, and social demographics, decisions hinge on numerical estimates over continuous quantities, a capability that current benchmarks do not capture. Evaluating such estimates requires a format that makes uncertainty explicit and testable. We propose prediction intervals as a natural and rigorous interface for this purpose. They demand scale awareness, internal consistency across confidence levels, and calibration over a continuum of outcomes, making them a more suitable evaluation format than point estimates for numerical forecasting. To assess this capability, we introduce a new benchmark QuantSightBench, and evaluate frontier models under multiple settings, assessing both empirical coverage and interval sharpness. Our results show that none of the 11 evaluated frontier and open-weight models achieves the 90\% coverage target, with the top performers Gemini 3.1 Pro (79.1\%), Grok 4 (76.4\%), and GPT-5.4 (75.3\%) all falling at least 10 percentage points short. Calibration degrades sharply at extreme magnitudes, revealing systematic overconfidence across all evaluated models.
- Abstract(参考訳): 予測は不確実性の下での推論の自然なベンチマークとなっている。
しかし、大規模な言語モデルの既存の評価は、バイナリや複数選択質問のような単純な形式での判断タスクに限られている。
しかし実際には、予測はより広い範囲にまたがっている。
経済学、公衆衛生学、社会人口統計学などの領域を越えて、決定は、現在のベンチマークでは捉えられない、連続的な量に関する数値的な見積もりにヒンジを当てる。
このような見積もりを評価するには、不確実性を明確にし、テスト可能なフォーマットが必要である。
この目的のために,予測間隔を自然かつ厳密なインタフェースとして提案する。
彼らはスケール認識、信頼性レベルを越えた内部整合性、結果の連続性に対する校正を要求しており、数値予測の点推定よりも適切な評価形式である。
この能力を評価するために、新しいベンチマークQuantSightBenchを導入し、複数の設定下でフロンティアモデルを評価し、経験的カバレッジとインターバルシャープネスの両方を評価する。
その結果、評価されたフロンティアモデルとオープンウェイトモデルのうち、上位パフォーマーのGemini 3.1 Pro(79.1\%)、Grok 4(76.4\%)、GPT-5.4(75.3\%)はいずれも少なくとも10ポイント以下である。
キャリブレーションは極端に大きく低下し、すべての評価されたモデルに対する体系的な過信が明らかになる。
関連論文リスト
- TFRBench: A Reasoning Benchmark for Evaluating Forecasting Systems [52.91956121737963]
我々は,予測システムの推論能力を評価するための最初のベンチマークであるTFRBenchを紹介する。
本稿では,反復的検証ループを用いて,数値的に基底となる推論トレースを合成するマルチエージェント・フレームワークを提案する。
評価は,この推論が因果的に有効であること,評価に有用であること,生成したトレースでLSMを誘導することにより,予測精度が大幅に向上することを確認した。
論文 参考訳(メタデータ) (2026-04-07T03:04:45Z) - Localized Uncertainty Quantification in Random Forests via Proximities [1.0195618602298684]
機械学習では、不確実性定量化はモデルの予測の信頼性を評価するのに役立つ。
従来のアプローチでは予測精度が重視されることが多いが、不確実性対策の導入に焦点が当てられている。
自然発生試験セットと類似度尺度(確率)をランダム林の副産物と見なす新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-09-26T20:53:28Z) - FOReCAst: The Future Outcome Reasoning and Confidence Assessment Benchmark [11.149409619312827]
FOReCAstはモデルを予測し、その信頼性を評価するためのベンチマークである。
ブール問題、時間枠予測、量推定を含む様々な予測シナリオにまたがる。
実世界のアプリケーションに対して、予測精度と信頼性校正の両方を包括的に評価する。
論文 参考訳(メタデータ) (2025-02-27T01:36:00Z) - Score Matching-based Pseudolikelihood Estimation of Neural Marked
Spatio-Temporal Point Process with Uncertainty Quantification [59.81904428056924]
我々は、不確実な定量化を伴うmarkPsを学習するためのスコアMAtching推定器であるSMASHを紹介する。
具体的には,スコアマッチングによるマークPsの擬似的類似度を推定することにより,正規化自由度を推定する。
提案手法の優れた性能は、事象予測と不確実性定量化の両方において広範な実験によって実証される。
論文 参考訳(メタデータ) (2023-10-25T02:37:51Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - Dense Uncertainty Estimation [62.23555922631451]
本稿では,ニューラルネットワークと不確実性推定手法について検討し,正確な決定論的予測と確実性推定の両方を実現する。
本研究では,アンサンブルに基づく手法と生成モデルに基づく手法の2つの不確実性推定法について検討し,それらの長所と短所を,完全/半端/弱度に制御されたフレームワークを用いて説明する。
論文 参考訳(メタデータ) (2021-10-13T01:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。