論文の概要: TSRBench: A Comprehensive Multi-task Multi-modal Time Series Reasoning Benchmark for Generalist Models
- arxiv url: http://arxiv.org/abs/2601.18744v1
- Date: Mon, 26 Jan 2026 18:04:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:09.000682
- Title: TSRBench: A Comprehensive Multi-task Multi-modal Time Series Reasoning Benchmark for Generalist Models
- Title(参考訳): TSRBench: 汎用モデルのための総合マルチタスクマルチモーダル時系列推論ベンチマーク
- Authors: Fangxu Yu, Xingang Guo, Lingzhi Yuan, Haoqiang Kang, Hongyu Zhao, Lianhui Qin, Furong Huang, Bin Hu, Tianyi Zhou,
- Abstract要約: 時系列で推論する能力は、ジェネラリストモデルが現実的な問題を解決するための基本的なスキルである。
このギャップを埋めるために、時系列推論機能の全スペクトルをストレステストするために設計された総合的なベンチマークであるTSRBenchを紹介する。
- 参考スコア(独自算出の注目度): 52.21298691935726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Time series data is ubiquitous in real-world scenarios and crucial for critical applications ranging from energy management to traffic control. Consequently, the ability to reason over time series is a fundamental skill for generalist models to solve practical problems. However, this dimension is notably absent from existing benchmarks of generalist models. To bridge this gap, we introduce TSRBench, a comprehensive multi-modal benchmark designed to stress-test the full spectrum of time series reasoning capabilities. TSRBench features: i) a diverse set of 4125 problems from 14 domains, and is categorized into 4 major dimensions: Perception, Reasoning, Prediction, and Decision-Making. ii) 15 tasks from the 4 dimensions evaluating essential reasoning capabilities (e.g., numerical reasoning). Through extensive experiments, we evaluated over 30 leading proprietary and open-source LLMs, VLMs, and TSLLMs within TSRBench. Our findings reveal that: i) scaling laws hold for perception and reasoning but break down for prediction; ii) strong reasoning does not guarantee accurate context-aware forecasting, indicating a decoupling between semantic understanding and numerical prediction; and iii) despite the complementary nature of textual and visual represenations of time series as inputs, current multimodal models fail to effectively fuse them for reciprocal performance gains. TSRBench provides a standardized evaluation platform that not only highlights existing challenges but also offers valuable insights to advance generalist models. Our code and dataset are available at https://tsrbench.github.io/.
- Abstract(参考訳): 時系列データは、実世界のシナリオにおいてユビキタスであり、エネルギー管理から交通制御まで、重要なアプリケーションに不可欠である。
したがって、時系列で推論する能力は、ジェネラリストモデルが実践的な問題を解決するための基本的なスキルである。
しかし、この次元はジェネラリストモデルの既存のベンチマークには特に欠落している。
このギャップを埋めるために、時系列推論機能の全スペクトルをストレステストするために設計された総合的なマルチモーダルベンチマークであるTSRBenchを紹介する。
TSRBenchの機能
i)14の領域から4125の問題を分類し、知覚、推論、予測、意思決定の4つの主要な側面に分類する。
二 本質的推論能力(例えば、数値的推論)を評価する四次元のタスク15
広範にわたる実験により,TSRBench 内において,プロプライエタリでオープンソースの LLM, VLM, TSLLM を30以上評価した。
私たちの発見は、こう示しています。
一 スケール法は、知覚及び推論のために成り立つが、予測のために破滅すること。
二 強い推論は、文脈認識の正確な予測を保証せず、意味理解と数値予測の疎結合を示唆する。
三 入力として時系列をテキスト的かつ視覚的に補足することの相補的な性質にもかかわらず、現在のマルチモーダルモデルは、相互のパフォーマンス向上のためにそれらを効果的に融合させることができない。
TSRBenchは、既存の課題を強調するだけでなく、ジェネラリストモデルの進歩に価値ある洞察を提供する標準化された評価プラットフォームを提供する。
私たちのコードとデータセットはhttps://tsrbench.github.io/で公開されています。
関連論文リスト
- TimeOmni-1: Incentivizing Complex Reasoning with Time Series in Large Language Models [105.47481207029047]
時系列を推論する3つの基本的な機能にまたがる4つのアトミックタスクを形式化した時系列推論スイート(TSR-Suite)を紹介する。
また,時系列推論を必要とする多種多様な実世界の問題に対処するために設計された最初の統一推論モデルであるTime Omni-1を紹介する。
論文 参考訳(メタデータ) (2025-09-29T13:54:34Z) - seqBench: A Tunable Benchmark to Quantify Sequential Reasoning Limits of LLMs [1.0519693622157462]
我々は,Large Language Models (LLMs) における逐次推論限界を探索するベンチマークであるseqBenchを紹介する。
検索の複雑さが最小限であるにもかかわらず、セクベンチの構造的推論タスクでは、トップパフォーマンスモデルでさえ体系的に失敗することがわかった。
論文 参考訳(メタデータ) (2025-09-21T01:32:13Z) - Time-RA: Towards Time Series Reasoning for Anomaly with LLM Feedback [55.284574165467525]
Time-RA(Time-Series Reasoning for Anomaly)は、時系列異常検出を生成的、推論集約的なタスクに変換する。
また,実世界のマルチモーダルベンチマークデータセットであるRATs40Kを導入する。
論文 参考訳(メタデータ) (2025-07-20T18:02:50Z) - TurnBench-MS: A Benchmark for Evaluating Multi-Turn, Multi-Step Reasoning in Large Language Models [5.6525926183880255]
本論文では,対話型コードブレークタスクによるマルチターン・マルチステップ推論を評価する新しいベンチマークであるTurnBenchを紹介する。
各エピソードにおいて、モデルはシーケンシャルな推測を行い、構造化されたフィードバックを受け取り、複数のラウンドで手がかりを統合することによって、隠れた論理的または算術的なルールを明らかにする必要がある。
TurnBenchには、標準推論をテストするClassicと、複雑さを増し堅牢な推論チェーンを必要とするNightmareの2つのモードがある。
論文 参考訳(メタデータ) (2025-06-02T05:47:50Z) - MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation [56.87891213797931]
大規模言語モデルに対するMTR-Benchの評価について述べる。
4つのクラス、40のタスク、3600のインスタンスを含むMTR-Benchは、様々な推論機能をカバーする。
MTR-Benchは、データセットの構築とモデル評価の両方にまたがる、完全に自動化されたフレームワークを備えている。
論文 参考訳(メタデータ) (2025-05-21T17:59:12Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - MT-Eval: A Multi-Turn Capabilities Evaluation Benchmark for Large
Language Models [70.92847554971065]
MT-Evalは,マルチターン対話能力を評価するための総合的なベンチマークである。
人間のLLM会話を解析することにより,インタラクションパターンを,再現,拡張,洗練,フォローアップの4つのタイプに分類する。
11個の有名なLCMを評価したところ、クローズドソースモデルは一般的にオープンソースモデルを上回るが、特定のタスクにおいて特定のオープンソースモデルの方がGPT-3.5-Turboを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-30T04:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。