論文の概要: TemporalBench: A Benchmark for Evaluating LLM-Based Agents on Contextual and Event-Informed Time Series Tasks
- arxiv url: http://arxiv.org/abs/2602.13272v1
- Date: Thu, 05 Feb 2026 01:02:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.604945
- Title: TemporalBench: A Benchmark for Evaluating LLM-Based Agents on Contextual and Event-Informed Time Series Tasks
- Title(参考訳): TemporalBench: コンテキストおよびイベントインフォームド時系列タスク上でのLCMベースのエージェント評価ベンチマーク
- Authors: Muyan Weng, Defu Cao, Wei Yang, Yashaswi Sharma, Yan Liu,
- Abstract要約: 強い予測性能が真の時間的理解を反映しているか、文脈的・事象駆動的条件下での推論能力を反映しているかは明らかでない。
よりリッチな情報環境下での時間的推論行動を評価するために設計されたマルチドメインベンチマークである TemporalBench を紹介する。
将来のターゲットやコンテキスト情報へのアクセスを制御することで、モデルが時間的パターンを正しく解釈できるかどうかの診断分析が可能になる。
- 参考スコア(独自算出の注目度): 12.114998959919978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is unclear whether strong forecasting performance reflects genuine temporal understanding or the ability to reason under contextual and event-driven conditions. We introduce TemporalBench, a multi-domain benchmark designed to evaluate temporal reasoning behavior under progressively richer informational settings. TemporalBench adopts a four-tier task taxonomy that examines historical structure interpretation, context-free forecasting, contextual temporal reasoning, and event-conditioned prediction across four real-world domains: retail, healthcare, energy, and physical systems. By controlling access to future targets and contextual information, the benchmark enables a diagnostic analysis of whether models can correctly interpret temporal patterns, align them with external context, and adapt predictions when conditions change. Extensive baseline experiments show that strong numerical forecasting accuracy does not reliably translate into robust contextual or event-aware temporal reasoning; instead, existing agent frameworks exhibit fragmented strengths and systematic failure modes that remain largely hidden under forecasting-only benchmarks. The TemporalBench dataset is publicly available at https://huggingface.co/datasets/Melady/TemporalBench, and we additionally provide a public leaderboard at https://huggingface.co/spaces/Melady/TemporalBench_Leaderboard.
- Abstract(参考訳): 強い予測性能が真の時間的理解を反映しているか、文脈的・事象駆動的条件下での推論能力を反映しているかは明らかでない。
よりリッチな情報環境下での時間的推論行動を評価するために設計されたマルチドメインベンチマークである TemporalBench を紹介する。
テンポラルベンチは、歴史的構造解釈、文脈自由予測、文脈的時間的推論、および実世界の4つのドメイン(小売、医療、エネルギー、物理システム)にわたる事象条件付き予測を調査する4段階のタスク分類を採用する。
将来のターゲットやコンテキスト情報へのアクセスを制御することで、モデルが時間的パターンを正しく解釈し、外部のコンテキストと整列し、条件が変わったときに予測を適応できるかどうかの診断分析が可能になる。
大規模なベースライン実験では、強い数値予測精度が強固にコンテキストやイベント認識の時間的推論に確実に変換されないことが示され、代わりに既存のエージェントフレームワークはフラグメント化された強度と、予測のみのベンチマークの下にほとんど隠れたままの体系的な障害モードを示す。
TemporalBenchデータセットはhttps://huggingface.co/datasets/Melady/TemporalBenchで公開されています。
関連論文リスト
- It's TIME: Towards the Next Generation of Time Series Forecasting Benchmarks [87.7937890373758]
時系列基礎モデル(TSFM)は,特定のデータセットモデルから一般化可能なタスク評価に至るまで,予測環境に革命をもたらしている。
我々は、50の新しいデータセットと98の予測タスクからなる次世代タスク中心のベンチマークであるTIMEを紹介する。
静的なメタラベルに基づく従来のデータセットレベルの評価を超える新しいパターンレベルの評価視点を提案する。
論文 参考訳(メタデータ) (2026-02-12T16:31:01Z) - What If TSF: A Benchmark for Reframing Forecasting as Scenario-Guided Multimodal Forecasting [8.593646221015264]
TSF(WIT)は、モデルが文脈テキストで予測を条件付けできるかどうかを評価するためのベンチマークである。
WITはシナリオ誘導型マルチモーダル予測のための厳格なテストベッドを提供する。
論文 参考訳(メタデータ) (2026-01-13T12:47:43Z) - Hierarchical AI-Meteorologist: LLM-Agent System for Multi-Scale and Explainable Weather Forecast Reporting [3.0354231393746685]
階層型AI-気象学者は、階層型予測推論と天気キーワード生成を用いて説明可能な天気予報を生成する。
本フレームワークは,時間,6時間,日毎の多段階的推論を行い,短期的動態と長期的傾向の両方を捉える。
論文 参考訳(メタデータ) (2025-11-28T17:27:06Z) - Zephyrus: An Agentic Framework for Weather Science [47.611521052984365]
気象学の基礎モデルは、大量の構造化された数値データと従来の天気予報システムより優れた性能で事前訓練されている。
大規模言語モデル(LLM)は、テキストの理解と生成に優れるが、高次元の気象データセットを推論することはできない。
気象学の新しいエージェント・フレームワークを構築することで、このギャップを埋める。
我々は、気象データセットを反復的に分析し、結果を観察し、会話フィードバックループを通じてアプローチを洗練するマルチターンLCMベースの気象エージェントであるZephyrusを設計する。
論文 参考訳(メタデータ) (2025-10-05T03:34:08Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Temporal Validity Change Prediction [20.108317515225504]
既存のベンチマークタスクは、1つのステートメントの時間的妥当性を識別するモデルを必要とする。
多くの場合、利用可能なテキストストリームから、ストーリー中の文やソーシャルメディアプロファイル上の投稿などの追加の文脈情報を集めることができる。
本稿では,このような変化を誘発する文脈文を検出する機械学習モデルの能力をベンチマークした自然言語処理タスクである時間的妥当性変化予測を提案する。
論文 参考訳(メタデータ) (2024-01-01T14:58:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。