論文の概要: PROPHET: An Inferable Future Forecasting Benchmark with Causal Intervened Likelihood Estimation
- arxiv url: http://arxiv.org/abs/2504.01509v1
- Date: Wed, 02 Apr 2025 08:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:39.534666
- Title: PROPHET: An Inferable Future Forecasting Benchmark with Causal Intervened Likelihood Estimation
- Title(参考訳): PROPHET:Causal Intervened Likelihood Estimationを用いた予測ベンチマーク
- Authors: Zhengwei Tao, Zhi Jin, Bincheng Li, Xiaoying Bai, Haiyan Zhao, Chengfeng Dou, Xiancai Chen, Jia Li, Linyu Li, Chongyang Tao,
- Abstract要約: 大規模言語モデル(LLM)に基づくシステムにおける最近の進歩は、将来の事象を予測する大きな可能性を示している。
イベント予測をRAG(Research-augmented Generation)と推論タスクとして形式化し,予測能力を評価するために,いくつかのベンチマークが確立されている。
本稿では,検索のための関連ニュースと組み合わせた予測可能な質問を含む新しいベンチマークPropPHETを提案する。
- 参考スコア(独自算出の注目度): 46.3251656496956
- License:
- Abstract: Predicting future events stands as one of the ultimate aspirations of artificial intelligence. Recent advances in large language model (LLM)-based systems have shown remarkable potential in forecasting future events, thereby garnering significant interest in the research community. Currently, several benchmarks have been established to evaluate the forecasting capabilities by formalizing the event prediction as a retrieval-augmented generation (RAG) and reasoning task. In these benchmarks, each prediction question is answered with relevant retrieved news articles. However, because there is no consideration on whether the questions can be supported by valid or sufficient supporting rationales, some of the questions in these benchmarks may be inherently noninferable. To address this issue, we introduce a new benchmark, PROPHET, which comprises inferable forecasting questions paired with relevant news for retrieval. To ensure the inferability of the benchmark, we propose Causal Intervened Likelihood (CIL), a statistical measure that assesses inferability through causal inference. In constructing this benchmark, we first collected recent trend forecasting questions and then filtered the data using CIL, resulting in an inferable benchmark for event prediction. Through extensive experiments, we first demonstrate the validity of CIL and in-depth investigations into event prediction with the aid of CIL. Subsequently, we evaluate several representative prediction systems on PROPHET, drawing valuable insights for future directions.
- Abstract(参考訳): 将来の出来事を予測することは、人工知能の究極の願望の1つだ。
大規模言語モデル(LLM)に基づくシステムにおける最近の進歩は,今後の出来事を予測する上で大きな可能性を秘めており,研究コミュニティにおいて大きな関心を集めている。
現在、事象予測を検索強化世代(RAG)と推論タスクとして形式化し、予測能力を評価するために、いくつかのベンチマークが確立されている。
これらのベンチマークでは、各予測質問に対して関連するニュース記事が回答される。
しかしながら、質問が妥当か十分な支持理性によって支持できるかどうかについては考慮されていないので、これらのベンチマークのいくつかの質問は本質的に推論不可能であるかもしれない。
この問題に対処するため,検索のための関連ニュースと組み合わせた予測可能な質問を含む新しいベンチマークPropPHETを導入する。
ベンチマークの推論可能性を確保するため,因果推論による推論可能性を評価する統計的尺度であるCausal Intervened Likelihood (CIL)を提案する。
このベンチマークを構築した際、我々は最近のトレンド予測質問を最初に収集し、CILを用いてデータをフィルタリングし、その結果、イベント予測のための推測可能なベンチマークを得た。
広範囲にわたる実験を通じて,まずCILの妥当性を実証し,CILの助けを借りてイベント予測を行う。
その後,ProPHET上でのいくつかの代表的な予測システムを評価し,今後の方向性について貴重な知見を導き出す。
関連論文リスト
- Wisdom of the Crowds in Forecasting: Forecast Summarization for Supporting Future Event Prediction [17.021220773165016]
Future Event Prediction (FEP) は、複数のドメインにまたがる需要とアプリケーションの範囲にまたがる重要なアクティビティである。
予測方法の1つは、将来についての集合的な意見を収集して集約し、累積的な視点が今後の出来事の可能性を推定する可能性をもたらすように予測することである。
本研究では,個々の予測を集約することで,群衆の知恵に基づく今後のイベント予測を支援するために,既存の研究・フレームワークを編成する。
論文 参考訳(メタデータ) (2025-02-12T08:35:10Z) - Navigating Tomorrow: Reliably Assessing Large Language Models Performance on Future Event Prediction [17.021220773165016]
本研究では,将来の予測タスクを支援するために,複数の大規模言語モデル(LLM)の性能を評価する。
我々は、エンティティタイプとその人気に基づいてニュース記事を発見し分類することで、データセット1を作成する。
論文 参考訳(メタデータ) (2025-01-10T12:44:46Z) - Consistency Checks for Language Model Forecasters [54.62507816753479]
予測器の性能を,論理的に異なる質問に対する予測の整合性の観点から測定する。
我々は,一連の基本質問を生成し,これらの質問から整合性チェックをインスタンス化し,予測者の予測を導き,予測の整合性を測定する自動評価システムを構築した。
論文 参考訳(メタデータ) (2024-12-24T16:51:35Z) - Enhancing Mean-Reverting Time Series Prediction with Gaussian Processes:
Functional and Augmented Data Structures in Financial Forecasting [0.0]
本稿では,ガウス過程(GP)を基礎構造を持つ平均回帰時系列の予測に適用する。
GPは、平均予測だけでなく、将来の軌道上の確率分布全体を予測する可能性を提供する。
これは、不正なボラティリティ評価が資本損失につながる場合、正確な予測だけでは十分でない金融状況において特に有益である。
論文 参考訳(メタデータ) (2024-02-23T06:09:45Z) - Performative Time-Series Forecasting [71.18553214204978]
我々は,機械学習の観点から,パフォーマンス時系列予測(PeTS)を定式化する。
本稿では,予測分布シフトに対する遅延応答の概念を活用する新しい手法であるFeature Performative-Shifting(FPS)を提案する。
新型コロナウイルスの複数の時系列モデルと交通予報タスクを用いた総合的な実験を行った。
論文 参考訳(メタデータ) (2023-10-09T18:34:29Z) - Towards Out-of-Distribution Sequential Event Prediction: A Causal
Treatment [72.50906475214457]
シーケンシャルなイベント予測の目標は、一連の歴史的なイベントに基づいて次のイベントを見積もることである。
実際には、次のイベント予測モデルは、一度に収集されたシーケンシャルなデータで訓練される。
文脈固有の表現を学習するための階層的な分岐構造を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T07:54:13Z) - What Should I Know? Using Meta-gradient Descent for Predictive Feature
Discovery in a Single Stream of Experience [63.75363908696257]
計算強化学習は、未来の感覚の予測を通じて、エージェントの世界の知覚を構築しようとする。
この一連の作業において、オープンな課題は、エージェントがどの予測が意思決定を最も支援できるかを、無限に多くの予測から決定することである。
本稿では,エージェントが何を予測するかを学習するメタ段階的な降下過程,(2)選択した予測の見積もり,3)将来の報酬を最大化するポリシーを生成する方法を紹介する。
論文 参考訳(メタデータ) (2022-06-13T21:31:06Z) - Comparing Sequential Forecasters [35.38264087676121]
2つの予測器を考えてみましょう。それぞれが時間とともに一連のイベントを予測します。
オンラインでもポストホックでも、予測と結果がどのように生成されたかの検証不可能な仮定を避けながら、これらの予測をどのように比較すればよいのか?
予測スコアの時間差を推定するための新しい逐次推論手法を提案する。
実世界の野球と天気予報機を比較することで,我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2021-09-30T22:54:46Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。