論文の概要: Navigating Tomorrow: Reliably Assessing Large Language Models Performance on Future Event Prediction
- arxiv url: http://arxiv.org/abs/2501.05925v1
- Date: Fri, 10 Jan 2025 12:44:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:27:59.606105
- Title: Navigating Tomorrow: Reliably Assessing Large Language Models Performance on Future Event Prediction
- Title(参考訳): ナビゲーション明日 - 将来のイベント予測で大規模言語モデルのパフォーマンスを確実に評価する
- Authors: Petraq Nako, Adam Jatowt,
- Abstract要約: 本研究では,将来の予測タスクを支援するために,複数の大規模言語モデル(LLM)の性能を評価する。
我々は、エンティティタイプとその人気に基づいてニュース記事を発見し分類することで、データセット1を作成する。
- 参考スコア(独自算出の注目度): 17.021220773165016
- License:
- Abstract: Predicting future events is an important activity with applications across multiple fields and domains. For example, the capacity to foresee stock market trends, natural disasters, business developments, or political events can facilitate early preventive measures and uncover new opportunities. Multiple diverse computational methods for attempting future predictions, including predictive analysis, time series forecasting, and simulations have been proposed. This study evaluates the performance of several large language models (LLMs) in supporting future prediction tasks, an under-explored domain. We assess the models across three scenarios: Affirmative vs. Likelihood questioning, Reasoning, and Counterfactual analysis. For this, we create a dataset1 by finding and categorizing news articles based on entity type and its popularity. We gather news articles before and after the LLMs training cutoff date in order to thoroughly test and compare model performance. Our research highlights LLMs potential and limitations in predictive modeling, providing a foundation for future improvements.
- Abstract(参考訳): 将来のイベントを予測することは、複数のフィールドやドメインにわたるアプリケーションにとって重要な活動である。
例えば、株式市場のトレンド、自然災害、事業展開、政治的出来事を予測する能力は、早期の予防措置を促進し、新たな機会を明らかにすることができる。
予測分析,時系列予測,シミュレーションなど,将来の予測を試みるための多種多様な計算手法が提案されている。
本研究では,いくつかの大規模言語モデル(LLM)の性能評価を行った。
Affirmative vs. Likelihood questioning, Reasoning, Counterfactual analysisの3つのシナリオでモデルを評価する。
そこで我々は,エンティティタイプとその人気度に基づいて,ニュース記事の検索と分類を行うことにより,データセット1を作成する。
モデル性能を徹底的に検証し比較するために,LLMのトレーニングカット日前後のニュース記事を収集する。
我々の研究は、予測モデリングにおけるLLMの可能性と限界を強調し、将来の改善の基盤を提供する。
関連論文リスト
- Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - LABOR-LLM: Language-Based Occupational Representations with Large Language Models [8.909328013944567]
CAREERは、キャリア履歴の関数として労働者の次の仕事を予測する。
本稿では,履歴書に基づく基礎モデルを大規模言語モデルに置き換える方法を検討する。
論文 参考訳(メタデータ) (2024-06-25T23:07:18Z) - Can Language Models Use Forecasting Strategies? [14.332379032371612]
実世界の出来事と関連する人間の予測の新たなデータセットを用いた実験について述べる。
モデルはまだ、未来に関する正確な予測に苦戦している。
論文 参考訳(メタデータ) (2024-06-06T19:01:42Z) - Approaching Human-Level Forecasting with Language Models [34.202996056121]
我々は,言語モデル(LM)が競争力のある人間の予測能力のレベルで予測できるかどうかを検討した。
本研究では,関連する情報を自動的に検索し,予測を生成し,予測を集約する検索拡張型LMシステムを開発した。
論文 参考訳(メタデータ) (2024-02-28T18:54:18Z) - Benchmarking Sequential Visual Input Reasoning and Prediction in
Multimodal Large Language Models [21.438427686724932]
本稿では,MLLMの予測推論能力を様々なシナリオで評価する新しいベンチマークを提案する。
本ベンチマークでは,抽象パターン推論,人間活動予測,物理的相互作用予測という3つの重要な領域を対象としている。
実験により,提案したベンチマークの音質と評価方法が検証された。
論文 参考訳(メタデータ) (2023-10-20T13:14:38Z) - Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models [51.3422222472898]
ニュース見出しを用いて,ChatGPTのような大規模言語モデル(LLM)の株価変動を予測する能力について述べる。
我々は,情報容量制約,過小反応,制限対アビタージュ,LLMを組み込んだ理論モデルを構築した。
論文 参考訳(メタデータ) (2023-04-15T19:22:37Z) - Towards Out-of-Distribution Sequential Event Prediction: A Causal
Treatment [72.50906475214457]
シーケンシャルなイベント予測の目標は、一連の歴史的なイベントに基づいて次のイベントを見積もることである。
実際には、次のイベント予測モデルは、一度に収集されたシーケンシャルなデータで訓練される。
文脈固有の表現を学習するための階層的な分岐構造を持つフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T07:54:13Z) - Forecasting Future World Events with Neural Networks [68.43460909545063]
Autocastは数千の予測質問と付随するニュースコーパスを含むデータセットである。
ニュースコーパスは日付によって整理され、人間が過去の予測を行った条件を正確にシミュレートすることができる。
予測タスクで言語モデルをテストし、パフォーマンスが人間専門家のベースラインよりはるかに低いことを確認します。
論文 参考訳(メタデータ) (2022-06-30T17:59:14Z) - Adversarial Generative Grammars for Human Activity Prediction [141.43526239537502]
将来予測のための逆生成文法モデルを提案する。
私たちの文法は、データ分散から生産ルールを学習できるように設計されています。
推論中に複数の生産ルールを選択することができると、予測される結果が異なる。
論文 参考訳(メタデータ) (2020-08-11T17:47:53Z) - Video Prediction via Example Guidance [156.08546987158616]
ビデオ予測タスクでは、将来のコンテンツとダイナミクスのマルチモーダルな性質を捉えることが大きな課題である。
本研究では,有効な将来状態の予測を効果的に行うための,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。