論文の概要: Forecasting Future International Events: A Reliable Dataset for Text-Based Event Modeling
- arxiv url: http://arxiv.org/abs/2411.14042v1
- Date: Thu, 21 Nov 2024 11:44:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:20:31.417052
- Title: Forecasting Future International Events: A Reliable Dataset for Text-Based Event Modeling
- Title(参考訳): 将来の国際イベントの予測 - テキストベースのイベントモデリングのための信頼性の高いデータセット
- Authors: Daehoon Gwak, Junwoo Park, Minho Park, Chaehun Park, Hyunchan Lee, Edward Choi, Jaegul Choo,
- Abstract要約: WorldREPは、大規模言語モデル(LLM)の高度な推論能力を活用することで制限に対処するために設計された、新しいデータセットである。
我々のデータセットは、高度なプロンプトモデリングと、政治学の領域の専門家による厳密な検証によって生成される高品質なスコアリングラベルを特徴としている。
データ収集、ラベル付け、ベンチマークのための完全な自動化ソースコードとともに、私たちのデータセットを公開し、テキストベースのイベント予測の研究を支援し、前進させることを目指しています。
- 参考スコア(独自算出の注目度): 37.508538729757404
- License:
- Abstract: Predicting future international events from textual information, such as news articles, has tremendous potential for applications in global policy, strategic decision-making, and geopolitics. However, existing datasets available for this task are often limited in quality, hindering the progress of related research. In this paper, we introduce WORLDREP (WORLD Relationship and Event Prediction), a novel dataset designed to address these limitations by leveraging the advanced reasoning capabilities of large-language models (LLMs). Our dataset features high-quality scoring labels generated through advanced prompt modeling and rigorously validated by domain experts in political science. We showcase the quality and utility of WORLDREP for real-world event prediction tasks, demonstrating its effectiveness through extensive experiments and analysis. Furthermore, we publicly release our dataset along with the full automation source code for data collection, labeling, and benchmarking, aiming to support and advance research in text-based event prediction.
- Abstract(参考訳): ニュース記事などのテキスト情報から将来の国際イベントを予測することは、グローバルポリシー、戦略的意思決定、地政学の応用に大きな可能性を持っている。
しかし、このタスクで利用可能な既存のデータセットは、しばしば品質が制限され、関連する研究の進歩を妨げる。
本稿では,WORLDREP(WORLD Relation and Event Prediction, WORLD Relation and Event Prediction)を提案する。
我々のデータセットは、高度なプロンプトモデリングと、政治学の領域の専門家による厳密な検証によって生成される高品質なスコアリングラベルを特徴としている。
本稿では、実世界の事象予測タスクにおけるWORLDREPの品質と有用性を示し、その効果を広範な実験と分析を通じて実証する。
さらに、テキストベースのイベント予測の研究を支援することを目的として、データセットと、データ収集、ラベル付け、ベンチマークのための完全な自動化ソースコードを公開しています。
関連論文リスト
- Predicting Country Instability Using Bayesian Deep Learning and Random Forest [0.0]
国が不安定であることは世界的な問題であり、社会経済の成長を妨げ、ネガティブな結果をもたらす可能性がある。
Global Database of Activity, Voice, and Tone (GDELT Project)は、毎日100以上の言語で放送、印刷、ウェブニュースを記録している。
我々の研究の主な目的は、我々のデータがより輝かしくきめ細かな粒度を増すとき、より複雑な政治的対立の方法論的分析を行うことができるかを調べることである。
論文 参考訳(メタデータ) (2024-11-11T00:23:03Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト・イズ・キー (Context is Key) (CiK) は、時系列予測ベンチマークであり、様々な種類のテキストコンテキストと数値データをペアリングする。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
実験では、文脈情報の導入の重要性を強調し、LLMに基づく予測モデルを用いた場合の驚くべき性能を示すとともに、それらの重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - MIRAI: Evaluating LLM Agents for Event Forecasting [22.524158637977]
我々は,国際イベントの文脈において,LLMエージェントを時間予測器として評価するための新しいベンチマークであるMIRAIを紹介する。
本ベンチマークでは,歴史的,構造化されたイベントやテキストニュース記事の広範なデータベースにアクセスするためのツールを備えたエージェント環境を特徴とする。
まとめると、MIRAIはエージェントの能力を3つの次元で総合的に評価する。1) 大規模グローバルデータベースから重要な情報を自律的にソースし統合すること、2) ドメイン固有のAPIとツール使用のためのライブラリを使ってコードを書くこと、3) 多様なフォーマットや時間から歴史的知識を共同で引き継ぎ、将来的な事象を正確に予測すること。
論文 参考訳(メタデータ) (2024-07-01T12:22:46Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - SCTc-TE: A Comprehensive Formulation and Benchmark for Temporal Event Forecasting [63.01035584154509]
私たちは完全に自動化されたパイプラインを開発し、約0.6百万のニュース記事からMidEast-TEという大規模なデータセットを構築しました。
このデータセットは、2015年から2022年まで、主に中東地域での協力と紛争イベントに焦点を当てている。
そこで本稿では,SCTc-TE予測にローカルコンテキストとグローバルコンテキストの両方を活用可能なLoGoを提案する。
論文 参考訳(メタデータ) (2023-12-02T07:40:21Z) - Exploring the Potential of AI-Generated Synthetic Datasets: A Case Study
on Telematics Data with ChatGPT [0.0]
この研究は、OpenAIの強力な言語モデルであるChatGPTを活用して、特にテレマティクス分野における合成データセットの構築と利用に力を入れている。
このデータ作成プロセスを説明するために、合成テレマティクスデータセットの生成に焦点を当てたハンズオンケーススタディが実施されている。
論文 参考訳(メタデータ) (2023-06-23T15:15:13Z) - Forecasting Future World Events with Neural Networks [68.43460909545063]
Autocastは数千の予測質問と付随するニュースコーパスを含むデータセットである。
ニュースコーパスは日付によって整理され、人間が過去の予測を行った条件を正確にシミュレートすることができる。
予測タスクで言語モデルをテストし、パフォーマンスが人間専門家のベースラインよりはるかに低いことを確認します。
論文 参考訳(メタデータ) (2022-06-30T17:59:14Z) - Robust Event Classification Using Imperfect Real-world PMU Data [58.26737360525643]
本研究では,不完全な実世界のファサー計測単位(PMU)データを用いて,ロバストな事象分類について検討する。
我々は、堅牢なイベント分類器を訓練するための新しい機械学習フレームワークを開発する。
論文 参考訳(メタデータ) (2021-10-19T17:41:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。