論文の概要: Assessing Large Language Models in Updating Their Forecasts with New Information
- arxiv url: http://arxiv.org/abs/2509.23936v1
- Date: Sun, 28 Sep 2025 15:16:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.543036
- Title: Assessing Large Language Models in Updating Their Forecasts with New Information
- Title(参考訳): 新しい情報を用いた予測更新における大規模言語モデルの評価
- Authors: Zhangdie Yuan, Zifeng Ding, Andreas Vlachos,
- Abstract要約: EVOLVECASTは,大規模言語モデルが新たな情報に反応して予測を適切に修正するかどうかを評価するフレームワークである。
我々は、人間予測器を比較基準として、更新された状況下での予測シフトと信頼度校正を分析する。
言語化やロジットに基づく信頼度評価は、常に他方よりも優れておらず、どちらも人間の基準から遠く離れている。
- 参考スコア(独自算出の注目度): 15.692887789817647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work has largely treated future event prediction as a static task, failing to consider how forecasts and the confidence in them should evolve as new evidence emerges. To address this gap, we introduce EVOLVECAST, a framework for evaluating whether large language models appropriately revise their predictions in response to new information. In particular, EVOLVECAST assesses whether LLMs adjust their forecasts when presented with information released after their training cutoff. We use human forecasters as a comparative reference to analyze prediction shifts and confidence calibration under updated contexts. While LLMs demonstrate some responsiveness to new information, their updates are often inconsistent or overly conservative. We further find that neither verbalized nor logits-based confidence estimates consistently outperform the other, and both remain far from the human reference standard. Across settings, models tend to express conservative bias, underscoring the need for more robust approaches to belief updating.
- Abstract(参考訳): これまでの作業では、将来のイベント予測を静的なタスクとして扱うことが多かったが、新たなエビデンスが発生するにつれて、予測と信頼性がどのように進化するかを考慮できなかった。
このギャップに対処するため,大規模な言語モデルが新たな情報に対応して予測を適切に修正するかどうかを評価するためのフレームワークであるEVOLVECASTを紹介した。
特に, EVOLVECASTは, LLMがトレーニング遮断後の情報を提示する際に, 予測を調整するかどうかを評価する。
我々は人間予測器を比較基準として、更新された状況下での予測シフトと信頼度校正を分析する。
LLMは新しい情報に対する応答性を示しているが、更新は一貫性がないか、過度に保守的であることが多い。
さらに、言語的・ロジットに基づく信頼度評価は、常に他方よりも優れており、どちらも人間の参照基準から遠く離れていることが判明した。
設定全体では、モデルは保守的なバイアスを表現し、信念の更新に対するより堅牢なアプローチの必要性を強調する傾向がある。
関連論文リスト
- Beyond Naïve Prompting: Strategies for Improved Zero-shot Context-aided Forecasting with LLMs [57.82819770709032]
大規模言語モデル (LLM) は、na "ive direct prompting" を通じて効果的な文脈支援予測を行うことができる。
ReDPは、明確な推論トレースを抽出することで、解釈可能性を改善し、コンテキスト上でモデルの推論を評価することができる。
CorDPはLLMを活用して、既存の予測をコンテキストで洗練し、現実の予測パイプラインにおける適用性を高める。
IC-DPは、文脈支援予測タスクの歴史的例を即時に組み込むことを提案し、大規模モデルにおいても精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-08-13T16:02:55Z) - Analyzing the Role of Context in Forecasting with Large Language Models [17.021220773165016]
まず,600以上のバイナリ予測質問のデータセットを導入し,関連するニュース記事とその簡潔な質問関連要約を付加した。
次に,入力プロンプトが予測性能に与える影響について検討する。
その結果,ニュース記事の導入により性能が著しく向上し,撮影例が少ないと精度が低下することが示唆された。
論文 参考訳(メタデータ) (2025-01-11T10:11:19Z) - Future-Guided Learning: A Predictive Approach To Enhance Time-Series Forecasting [4.866362841501992]
本稿では,予測符号化にインスパイアされた動的フィードバック機構を通じて時系列イベント予測を強化するアプローチであるFuture-Guided Learningを紹介する。
本手法は2つのモデルから構成される: 重要事象を識別するために将来のデータを解析する検出モデルと、これらの事象を現在のデータに基づいて予測する予測モデルである。
脳波データを用いた発作予測ではAUC-ROCが44.8%増加し,非線形力学系ではMSEが48.7%減少した。
論文 参考訳(メタデータ) (2024-10-19T21:22:55Z) - Belief Revision: The Adaptability of Large Language Models Reasoning [63.0281286287648]
本稿では,LMの信念修正能力をテストするための新しいデータセットであるBelief-Rを紹介する。
このタスクは、人間が事前の推論を抑える方法にインスパイアされ、新しく提案されたデルタ推論フレームワーク内のLMを評価する。
様々なプロンプト戦略にまたがる$sim$30 LMを評価した結果,LMは一般的に,新たな情報に反応して信念を適切に修正するのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-06-28T09:09:36Z) - Can LMs Generalize to Future Data? An Empirical Analysis on Text
Summarization [50.20034493626049]
最近の学習済み言語モデル(PLM)は、既存の抽象的な要約データセットにおいて有望な結果をもたらす。
既存の要約ベンチマークは、標準の事前学習コーパスと微調整データセットと時間的に重複する。
要約モデルに格納されたパラメトリック知識は、将来のデータに対する生成した要約の忠実度に大きく影響することを示す。
論文 参考訳(メタデータ) (2023-05-03T08:08:07Z) - Toward Reliable Human Pose Forecasting with Uncertainty [51.628234388046195]
我々は、複数のモデルを含む人間のポーズ予測のためのオープンソースのライブラリを開発し、複数のデータセットをサポートする。
我々は、パフォーマンスを高め、より良い信頼をもたらすために、問題の2つの不確実性を考案する。
論文 参考訳(メタデータ) (2023-04-13T17:56:08Z) - LoMEF: A Framework to Produce Local Explanations for Global Model Time
Series Forecasts [2.3096751699592137]
複数の時系列にまたがってトレーニングされたグローバル予測モデル(GFM)は、多くの予測競合や実世界のアプリケーションにおいて優れた結果を示している。
しかしながら、GFMは通常、特に特定の時系列に対する解釈可能性に欠ける。
本稿では,GFMからの予測を説明するために,局所モデルに依存しない新しい解法を提案する。
論文 参考訳(メタデータ) (2021-11-13T00:17:52Z) - Backward-Compatible Prediction Updates: A Probabilistic Approach [12.049279991559091]
本稿では,予測更新問題を定式化し,上記の質問に対する効率的な確率的アプローチを提案する。
標準分類ベンチマークデータセットの広範な実験において,提案手法は後方互換性のある予測更新のための代替戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-07-02T13:05:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。