論文の概要: MIRAI: Evaluating LLM Agents for Event Forecasting
- arxiv url: http://arxiv.org/abs/2407.01231v1
- Date: Mon, 1 Jul 2024 12:22:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 21:39:54.725326
- Title: MIRAI: Evaluating LLM Agents for Event Forecasting
- Title(参考訳): MIRAI:イベント予測のためのLLMエージェントの評価
- Authors: Chenchen Ye, Ziniu Hu, Yihe Deng, Zijie Huang, Mingyu Derek Ma, Yanqiao Zhu, Wei Wang,
- Abstract要約: 我々は,国際イベントの文脈において,LLMエージェントを時間予測器として評価するための新しいベンチマークであるMIRAIを紹介する。
本ベンチマークでは,歴史的,構造化されたイベントやテキストニュース記事の広範なデータベースにアクセスするためのツールを備えたエージェント環境を特徴とする。
まとめると、MIRAIはエージェントの能力を3つの次元で総合的に評価する。1) 大規模グローバルデータベースから重要な情報を自律的にソースし統合すること、2) ドメイン固有のAPIとツール使用のためのライブラリを使ってコードを書くこと、3) 多様なフォーマットや時間から歴史的知識を共同で引き継ぎ、将来的な事象を正確に予測すること。
- 参考スコア(独自算出の注目度): 22.524158637977
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have empowered LLM agents to autonomously collect world information, over which to conduct reasoning to solve complex problems. Given this capability, increasing interests have been put into employing LLM agents for predicting international events, which can influence decision-making and shape policy development on an international scale. Despite such a growing interest, there is a lack of a rigorous benchmark of LLM agents' forecasting capability and reliability. To address this gap, we introduce MIRAI, a novel benchmark designed to systematically evaluate LLM agents as temporal forecasters in the context of international events. Our benchmark features an agentic environment with tools for accessing an extensive database of historical, structured events and textual news articles. We refine the GDELT event database with careful cleaning and parsing to curate a series of relational prediction tasks with varying forecasting horizons, assessing LLM agents' abilities from short-term to long-term forecasting. We further implement APIs to enable LLM agents to utilize different tools via a code-based interface. In summary, MIRAI comprehensively evaluates the agents' capabilities in three dimensions: 1) autonomously source and integrate critical information from large global databases; 2) write codes using domain-specific APIs and libraries for tool-use; and 3) jointly reason over historical knowledge from diverse formats and time to accurately predict future events. Through comprehensive benchmarking, we aim to establish a reliable framework for assessing the capabilities of LLM agents in forecasting international events, thereby contributing to the development of more accurate and trustworthy models for international relation analysis.
- Abstract(参考訳): LLM(Large Language Models)の最近の進歩は、LLMエージェントに世界情報を自律的に収集する権限を与え、複雑な問題を解決するために推論を行う。
この能力を考えると、国際規模の意思決定や政策展開に影響を及ぼす可能性のある国際的事象の予測にLLMエージェントを採用することへの関心が高まっている。
このような関心の高まりにもかかわらず、LLMエージェントの予測能力と信頼性の厳密なベンチマークが欠如している。
このギャップに対処するため、国際イベントの文脈において、LLMエージェントを時間予測器として体系的に評価する新しいベンチマークであるMIRAIを導入する。
本ベンチマークでは,歴史的,構造化されたイベントやテキストニュース記事の広範なデータベースにアクセスするためのツールを備えたエージェント環境を特徴とする。
我々は,GDELTイベントデータベースを精査・解析し,様々な予測地平線で一連の関係予測タスクをキュレートし,LLMエージェントの短期的・長期的予測能力を評価する。
さらに、LLMエージェントがコードベースのインターフェイスを介して異なるツールを利用できるようにAPIを実装しています。
まとめると、MIRAIはエージェントの能力を3次元で総合的に評価する。
1) 大規模グローバルデータベースから重要な情報を自律的に提供し,統合すること。
2) ツール使用のためのドメイン固有のAPIとライブラリを使用してコードを書く。
3) 様々な形式や時間から歴史的知識を総合的に判断し, 今後の出来事を正確に予測する。
総合的なベンチマークを通じて,国際的事象の予測におけるLLMエージェントの能力を評価するための信頼性の高い枠組みを確立することを目指しており,国際関係分析のためのより正確で信頼性の高いモデルの開発に寄与する。
関連論文リスト
- Federated In-Context LLM Agent Learning [3.4757641432843487]
大規模言語モデル(LLM)は、論理的推論、ツールの使用、エージェントとしての外部システムとの相互作用を可能にすることによって、インテリジェントなサービスに革命をもたらした。
本稿では,プライバシ保護型フェデレーション・イン・コンテクスト LLM Agent Learning (FICAL) アルゴリズムを提案する。
その結果、FICALは、他のSOTAベースラインと比較して競争性能が優れており、通信コストの大幅な削減は、$mathbf3.33times105$倍であることがわかった。
論文 参考訳(メタデータ) (2024-12-11T03:00:24Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
メンバーシップ推論攻撃(MIA)は、特定のインスタンスがターゲットモデルのトレーニングデータの一部であるかどうかを判断することを目的としている。
大規模言語モデル(LLM)にMIAを適用することは、事前学習データの大規模化と、会員シップのあいまいさによって、ユニークな課題をもたらす。
EM-MIAは,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練するLLMの新しいMIA手法である。
論文 参考訳(メタデータ) (2024-10-10T03:31:16Z) - A Comprehensive Evaluation of Large Language Models on Temporal Event Forecasting [45.0261082985087]
時間的事象予測のための大規模言語モデル(LLM)を総合的に評価する。
LLMの入力に生テキストを直接統合しても、ゼロショット補間性能は向上しないことがわかった。
対照的に、特定の複雑なイベントや微調整LDMに生テキストを組み込むことで、性能が大幅に向上する。
論文 参考訳(メタデータ) (2024-07-16T11:58:54Z) - The Synergy between Data and Multi-Modal Large Language Models: A Survey from Co-Development Perspective [53.48484062444108]
モデルとデータの開発は2つの別々のパスではなく、むしろ相互接続であることがわかった。
一方,MLLMはデータ開発に役立てることができるため,MLLMの性能向上に寄与する。
MLLMコミュニティにおけるデータモデル共同開発を促進するために,データモデル共同開発の観点からMLLMに関連する既存の研究を体系的にレビューする。
論文 参考訳(メタデータ) (2024-07-11T15:08:11Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - LLMArena: Assessing Capabilities of Large Language Models in Dynamic
Multi-Agent Environments [35.926581910260076]
マルチエージェント動的環境における大規模言語モデルの能力を評価するためのフレームワークであるLLMArenaを紹介する。
LLArenaはTrueskillスコアを使用して、空間推論、戦略的計画、数値推論、リスク評価、コミュニケーション、相手モデリング、チームコラボレーションなど、LLMエージェントの重要な能力を評価する。
我々は、LLMの規模や種類によって、広範囲にわたる実験と人的評価を行い、LLMは、完全に自律的なエージェントへと発展する上で、依然として重要な道のりを歩んでいることを示す。
論文 参考訳(メタデータ) (2024-02-26T11:31:48Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。