論文の概要: LLM-as-a-Prophet: Understanding Predictive Intelligence with Prophet Arena
- arxiv url: http://arxiv.org/abs/2510.17638v1
- Date: Mon, 20 Oct 2025 15:20:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.497561
- Title: LLM-as-a-Prophet: Understanding Predictive Intelligence with Prophet Arena
- Title(参考訳): LLM-as-a-prophet: 預言者アリーナによる予測知能の理解
- Authors: Qingchuan Yang, Simon Mahns, Sida Li, Anri Gu, Jibang Wu, Haifeng Xu,
- Abstract要約: 大規模言語モデル(LLM)は、将来の事象を予測するために、インターネットスケールのデータに基づいて訓練されている。
本稿では,LLMの予測知能について系統的に検討する。
LLM-as-a-Prophetによる優れた予測知能の実現に向けた重要なボトルネックを明らかにする。
- 参考スコア(独自算出の注目度): 25.304644327116975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Forecasting is not only a fundamental intellectual pursuit but also is of significant importance to societal systems such as finance and economics. With the rapid advances of large language models (LLMs) trained on Internet-scale data, it raises the promise of employing LLMs to forecast real-world future events, an emerging paradigm we call "LLM-as-a-Prophet". This paper systematically investigates such predictive intelligence of LLMs. To this end, we build Prophet Arena, a general evaluation benchmark that continuously collects live forecasting tasks and decomposes each task into distinct pipeline stages, in order to support our controlled and large-scale experimentation. Our comprehensive evaluation reveals that many LLMs already exhibit impressive forecasting capabilities, reflected in, e.g., their small calibration errors, consistent prediction confidence and promising market returns. However, we also uncover key bottlenecks towards achieving superior predictive intelligence via LLM-as-a-Prophet, such as LLMs' inaccurate event recalls, misunderstanding of data sources and slower information aggregation compared to markets when resolution nears.
- Abstract(参考訳): 予測は基本的な知的な追求であるだけでなく、金融や経済学といった社会システムにおいても重要な意味を持つ。
インターネット規模のデータに基づいて訓練された大規模言語モデル(LLM)の急速な進歩により、現実の未来の事象を予測するためにLLMを使うことが約束される。
本稿では,LLMの予測知能について系統的に検討する。
この目的のために、私たちはProphet Arenaという、ライブ予測タスクを継続的に収集し、各タスクを独立したパイプラインステージに分解する一般的な評価ベンチマークを構築しました。
包括的評価の結果,多くのLCMは,例えば,小さな校正誤差,一貫した予測信頼度,有望な市場リターンなど,すでに顕著な予測能力を持っていることが明らかとなった。
しかし、LLMが不正確なイベントリコール、データソースの誤解、そして解像度が近づくと市場に比べて情報集約が遅くなるなど、LLM-as-a-Prophetを介して優れた予測知性を実現するための重要なボトルネックも明らかにした。
関連論文リスト
- Predicting Language Models' Success at Zero-Shot Probabilistic Prediction [23.802154124780376]
個人レベルの特徴を生成するためのゼロショットモデルとして,大規模言語モデル(LLM)の能力について検討する。
LLMのパフォーマンスは、同じデータセット内のタスクと異なるデータセットの両方で非常に可変であることがわかった。
タスクレベルでのLLMのパフォーマンスを予測するためのメトリクスを構築し、LLMがうまく機能する可能性のあるタスクと、それらが適さない可能性のあるタスクを区別することを目的としている。
論文 参考訳(メタデータ) (2025-09-18T18:57:05Z) - FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction [92.7392863957204]
FutureXは、将来の予測のための最大かつ最も多様なライブベンチマークである。
リアルタイムの日次更新をサポートし、質問収集と回答収集のための自動パイプラインを通じてデータの汚染を取り除く。
推論,検索機能,外部ツールの統合などを含む25のLLM/エージェントモデルを評価した。
論文 参考訳(メタデータ) (2025-08-16T08:54:08Z) - Beyond Naïve Prompting: Strategies for Improved Zero-shot Context-aided Forecasting with LLMs [57.82819770709032]
大規模言語モデル (LLM) は、na "ive direct prompting" を通じて効果的な文脈支援予測を行うことができる。
ReDPは、明確な推論トレースを抽出することで、解釈可能性を改善し、コンテキスト上でモデルの推論を評価することができる。
CorDPはLLMを活用して、既存の予測をコンテキストで洗練し、現実の予測パイプラインにおける適用性を高める。
IC-DPは、文脈支援予測タスクの歴史的例を即時に組み込むことを提案し、大規模モデルにおいても精度を大幅に向上させる。
論文 参考訳(メタデータ) (2025-08-13T16:02:55Z) - Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models [54.38054999271322]
我々は,大規模言語モデル (LLM) がベイジアンフレームワークから期待されているように,彼らの信念を更新しないことを示す。
我々は、標準ベイズモデルの予測を模倣するように訓練することで、ベイズ的方法による推論をLLMに教える。
より一般的には,LLMは実例から推論スキルを効果的に学習し,それらのスキルを新しいドメインに一般化できることを示す。
論文 参考訳(メタデータ) (2025-03-21T20:13:04Z) - Predictive Prompt Analysis [18.90591503793723]
大規模言語モデル(LLM)は、以前困難なタスクを扱う能力のために広く採用されている機械学習モデルである。
我々は、自動手法がプロンプトを素早く分析する「予測的プロンプト解析」が有用であると論じている。
SPA(Syntactic Prevalence Analyzer)を提案する。これはスパースオートエンコーダ(SAE)に基づく予測的プロンプト分析手法である。
論文 参考訳(メタデータ) (2025-01-31T04:34:43Z) - Advancing Annotation of Stance in Social Media Posts: A Comparative Analysis of Large Language Models and Crowd Sourcing [2.936331223824117]
ソーシャルメディア投稿における自動テキストアノテーションのための大規模言語モデル(LLM)は、大きな関心を集めている。
ソーシャルメディア投稿において,8つのオープンソースおよびプロプライエタリなLCMの性能分析を行った。
「我々の研究の顕著な発見は、姿勢を表わす文章の明快さが、LLMの姿勢判断が人間とどのように一致しているかにおいて重要な役割を担っていることである。」
論文 参考訳(メタデータ) (2024-06-11T17:26:07Z) - Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models [51.3422222472898]
ニュース見出しを用いて,ChatGPTのような大規模言語モデル(LLM)の株価変動を予測する能力について述べる。
我々は,情報容量制約,過小反応,制限対アビタージュ,LLMを組み込んだ理論モデルを構築した。
論文 参考訳(メタデータ) (2023-04-15T19:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。