Fugu-MT 論文翻訳(概要): The Future Outcome Reasoning and Confidence Assessment Benchmark

論文の概要: The Future Outcome Reasoning and Confidence Assessment Benchmark

arxiv url: http://arxiv.org/abs/2502.19676v1
Date: Thu, 27 Feb 2025 01:36:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-28 15:15:46.708769
Title: The Future Outcome Reasoning and Confidence Assessment Benchmark
Title（参考訳）: 今後のアウトカム推論と信頼度評価ベンチマーク
Authors: Zhangdie Yuan, Zifeng Ding, Andreas Vlachos,
Abstract要約: FOReCAstはモデルを予測し、その信頼性を評価するためのベンチマークである。ブール問題、時間枠予測、量推定を含む様々な予測シナリオにまたがる。実世界のアプリケーションに対して、予測精度と信頼性校正の両方を包括的に評価する。
参考スコア（独自算出の注目度）: 11.149409619312827
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Forecasting is an important task in many domains, such as technology and economics. However existing forecasting benchmarks largely lack comprehensive confidence assessment, focus on limited question types, and often consist of artificial questions that do not align with real-world human forecasting needs. To address these gaps, we introduce FOReCAst (Future Outcome Reasoning and Confidence Assessment), a benchmark that evaluates models' ability to make predictions and their confidence in them. FOReCAst spans diverse forecasting scenarios involving Boolean questions, timeframe prediction, and quantity estimation, enabling a comprehensive evaluation of both prediction accuracy and confidence calibration for real-world applications.
Abstract（参考訳）: 予測は、技術や経済学など、多くの分野において重要な課題である。しかし、既存の予測ベンチマークでは、包括的な信頼度評価がほとんどなく、限られた質問タイプに重点を置いており、現実の人間の予測ニーズと一致しない人工的な質問で構成されていることが多い。これらのギャップに対処するために,モデルが予測を行う能力と信頼度を評価するベンチマークであるForeCAst(Future Outcome Reasoning and Confidence Assessment)を紹介する。 ForeCAstは、ブール問題、時間枠予測、量推定を含む様々な予測シナリオにまたがっており、現実のアプリケーションに対する予測精度と信頼性校正の両方を包括的に評価することができる。

関連論文リスト

Always Tell Me The Odds: Fine-grained Conditional Probability Estimation [37.950889606305836]
文脈条件付き命題のきめ細かい確率推定のための最先端モデルを提案する。提案手法は,既存の微調整法とプロンプト法を大きなマージンで一貫して上回ることを示す。
論文参考訳（メタデータ） (2025-05-02T21:33:18Z)
PROPHET: An Inferable Future Forecasting Benchmark with Causal Intervened Likelihood Estimation [46.3251656496956]
大規模言語モデル(LLM)に基づくシステムにおける最近の進歩は、将来の事象を予測する大きな可能性を示している。イベント予測をRAG(Research-augmented Generation)と推論タスクとして形式化し,予測能力を評価するために,いくつかのベンチマークが確立されている。本稿では,検索のための関連ニュースと組み合わせた予測可能な質問を含む新しいベンチマークPropPHETを提案する。
論文参考訳（メタデータ） (2025-04-02T08:57:42Z)
Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文参考訳（メタデータ） (2024-12-24T16:51:35Z)
The Certainty Ratio $C_ρ$: a novel metric for assessing the reliability of classifier predictions [0.0]
本稿では,任意の分類性能指標に対する信頼性(確実性)と不確実性(不確実性)の寄与を定量化する新しい尺度であるCertainty Ratio(C_rho$)を紹介する。 21のデータセットと複数の分類器(Decision Trees、Naive-Bayes、 3-Nearest Neighbors、Random Forestsなど)にまたがる実験の結果、$C_rho$rhoは従来のメトリクスがしばしば見落としているという重要な洞察を明らかにしている。
論文参考訳（メタデータ） (2024-11-04T10:50:03Z)
Forecasting Company Fundamentals [19.363166648866066]
実企業データに基づく予測モデルについて,22の決定論的・確率的企業基盤を評価した。ディープラーニングモデルは,従来のモデルよりも優れた予測性能を提供する。これらの高品質な予測が、自動株式配分にどのような恩恵をもたらすかを示す。
論文参考訳（メタデータ） (2024-10-21T14:21:43Z)
Regions of Reliability in the Evaluation of Multivariate Probabilistic Forecasts [73.33395097728128]
時系列予測評価のための適切なスコアリングルールに関する最初の体系的な有限サンプル研究を提供する。本研究では, 地中構造と予測分布のいくつかの重要な相違点をテストするために, 総合的な総合的合成ベンチマークを用いて解析を行った。
論文参考訳（メタデータ） (2023-04-19T17:38:42Z)
Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文参考訳（メタデータ） (2023-04-13T17:56:08Z)
What Should I Know? Using Meta-gradient Descent for Predictive Feature Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文参考訳（メタデータ） (2022-06-13T21:31:06Z)
Evaluation of Machine Learning Techniques for Forecast Uncertainty Quantification [0.13999481573773068]
アンサンブル予測は、これまでのところ、関連する予測を生成するための最も成功したアプローチであり、その不確実性を見積もっている。アンサンブル予測の主な制限は、高い計算コストと異なる不確実性の源を捕捉し定量化することの難しさである。本研究は,1つの決定論的予測のみを入力として,システムの修正状態と状態不確かさを予測するために訓練されたANNの性能を評価するための概念モデル実験である。
論文参考訳（メタデータ） (2021-11-29T16:52:17Z)
Quantifying Uncertainty in Deep Spatiotemporal Forecasting [67.77102283276409]
本稿では,正規格子法とグラフ法という2種類の予測問題について述べる。我々はベイジアンおよび頻繁な視点からUQ法を解析し、統計的決定理論を通じて統一的な枠組みを提示する。実際の道路ネットワークのトラフィック、疫病、空気質予測タスクに関する広範な実験を通じて、異なるUQ手法の統計計算トレードオフを明らかにする。
論文参考訳（メタデータ） (2021-05-25T14:35:46Z)
Demand Forecasting of Individual Probability Density Functions with Machine Learning [0.0]
本研究では,予測分布の精度を評価する新しい手法を提案する。教師付き機械学習手法であるCyclic Boostingを用いて、各予測が完全に説明可能であるように、完全な個別確率密度関数を予測できる。
論文参考訳（メタデータ） (2020-09-15T13:05:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。