論文の概要: The Future Outcome Reasoning and Confidence Assessment Benchmark
- arxiv url: http://arxiv.org/abs/2502.19676v1
- Date: Thu, 27 Feb 2025 01:36:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-28 14:58:59.579823
- Title: The Future Outcome Reasoning and Confidence Assessment Benchmark
- Title(参考訳): 今後のアウトカム推論と信頼度評価ベンチマーク
- Authors: Zhangdie Yuan, Zifeng Ding, Andreas Vlachos,
- Abstract要約: FOReCAstはモデルを予測し、その信頼性を評価するためのベンチマークである。
ブール問題、時間枠予測、量推定を含む様々な予測シナリオにまたがる。
実世界のアプリケーションに対して、予測精度と信頼性校正の両方を包括的に評価する。
- 参考スコア(独自算出の注目度): 11.149409619312827
- License:
- Abstract: Forecasting is an important task in many domains, such as technology and economics. However existing forecasting benchmarks largely lack comprehensive confidence assessment, focus on limited question types, and often consist of artificial questions that do not align with real-world human forecasting needs. To address these gaps, we introduce FOReCAst (Future Outcome Reasoning and Confidence Assessment), a benchmark that evaluates models' ability to make predictions and their confidence in them. FOReCAst spans diverse forecasting scenarios involving Boolean questions, timeframe prediction, and quantity estimation, enabling a comprehensive evaluation of both prediction accuracy and confidence calibration for real-world applications.
- Abstract(参考訳): 予測は、技術や経済学など、多くの分野において重要な課題である。
しかし、既存の予測ベンチマークでは、包括的な信頼度評価がほとんどなく、限られた質問タイプに重点を置いており、現実の人間の予測ニーズと一致しない人工的な質問で構成されていることが多い。
これらのギャップに対処するために,モデルが予測を行う能力と信頼度を評価するベンチマークであるForeCAst(Future Outcome Reasoning and Confidence Assessment)を紹介する。
ForeCAstは、ブール問題、時間枠予測、量推定を含む様々な予測シナリオにまたがっており、現実のアプリケーションに対する予測精度と信頼性校正の両方を包括的に評価することができる。
関連論文リスト
- Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。
我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文 参考訳(メタデータ) (2024-12-24T16:51:35Z) - Forecasting Company Fundamentals [19.363166648866066]
実企業データに基づく予測モデルについて,22の決定論的・確率的企業基盤を評価した。
ディープラーニングモデルは,従来のモデルよりも優れた予測性能を提供する。
これらの高品質な予測が、自動株式配分にどのような恩恵をもたらすかを示す。
論文 参考訳(メタデータ) (2024-10-21T14:21:43Z) - ProbTS: Benchmarking Point and Distributional Forecasting across Diverse Prediction Horizons [23.9530536685668]
本稿では,基本的な予測ニーズを評価するための統一プラットフォームとして設計されたベンチマークツールであるProbTSを紹介する。
異なる予測条件から生じる特徴的データの特徴を識別する。
本稿では, 時系列予測の最新モデルについて検討し, 方法論的強度と弱点の分析も適用可能であることを明らかにする。
論文 参考訳(メタデータ) (2023-10-11T12:48:45Z) - Regions of Reliability in the Evaluation of Multivariate Probabilistic
Forecasts [73.33395097728128]
時系列予測評価のための適切なスコアリングルールに関する最初の体系的な有限サンプル研究を提供する。
本研究では, 地中構造と予測分布のいくつかの重要な相違点をテストするために, 総合的な総合的合成ベンチマークを用いて解析を行った。
論文 参考訳(メタデータ) (2023-04-19T17:38:42Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - Evaluation of Machine Learning Techniques for Forecast Uncertainty
Quantification [0.13999481573773068]
アンサンブル予測は、これまでのところ、関連する予測を生成するための最も成功したアプローチであり、その不確実性を見積もっている。
アンサンブル予測の主な制限は、高い計算コストと異なる不確実性の源を捕捉し定量化することの難しさである。
本研究は,1つの決定論的予測のみを入力として,システムの修正状態と状態不確かさを予測するために訓練されたANNの性能を評価するための概念モデル実験である。
論文 参考訳(メタデータ) (2021-11-29T16:52:17Z) - Quantifying Uncertainty in Deep Spatiotemporal Forecasting [67.77102283276409]
本稿では,正規格子法とグラフ法という2種類の予測問題について述べる。
我々はベイジアンおよび頻繁な視点からUQ法を解析し、統計的決定理論を通じて統一的な枠組みを提示する。
実際の道路ネットワークのトラフィック、疫病、空気質予測タスクに関する広範な実験を通じて、異なるUQ手法の統計計算トレードオフを明らかにする。
論文 参考訳(メタデータ) (2021-05-25T14:35:46Z) - Demand Forecasting of Individual Probability Density Functions with
Machine Learning [0.0]
本研究では,予測分布の精度を評価する新しい手法を提案する。
教師付き機械学習手法であるCyclic Boostingを用いて、各予測が完全に説明可能であるように、完全な個別確率密度関数を予測できる。
論文 参考訳(メタデータ) (2020-09-15T13:05:05Z) - Counterfactual Predictions under Runtime Confounding [74.90756694584839]
本研究は, 過去のデータからすべての関連要因を抽出した環境で, 事実予測タスクについて検討する。
本稿では,この環境下での対実予測モデル学習のための2次ロバスト手法を提案する。
論文 参考訳(メタデータ) (2020-06-30T15:49:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。