Fugu-MT 論文翻訳(概要): TimeSeriesExamAgent: Creating Time Series Reasoning Benchmarks at Scale

論文の概要: TimeSeriesExamAgent: Creating Time Series Reasoning Benchmarks at Scale

arxiv url: http://arxiv.org/abs/2604.10291v1
Date: Sat, 11 Apr 2026 17:15:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-14 20:13:15.941502
Title: TimeSeriesExamAgent: Creating Time Series Reasoning Benchmarks at Scale
Title（参考訳）: TimeSeriesExamAgent: スケールでの時系列推論ベンチマークの作成
Authors: Malgorzata Gwiazda, Yifu Cai, Mononito Goswami, Arjun Choudhry, Artur Dubrawski,
Abstract要約: 大規模言語モデル(LLM)は、時系列モデリングタスクにおいて有望なパフォーマンスを示しているが、彼らは本当に時系列データを理解しているのだろうか? テンプレートの柔軟性とLCMエージェントの創造性を組み合わせた総合時系列推論ベンチマークを作成するためのスケーラブルな手法を提案する。実験の結果、LLMの性能は、抽象時系列推論とドメイン固有のアプリケーションの両方で制限されていることが明らかとなった。
参考スコア（独自算出の注目度）: 19.848029471559624
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have shown promising performance in time series modeling tasks, but do they truly understand time series data? While multiple benchmarks have been proposed to answer this fundamental question, most are manually curated and focus on narrow domains or specific skill sets. To address this limitation, we propose scalable methods for creating comprehensive time series reasoning benchmarks that combine the flexibility of templates with the creativity of LLM agents. We first develop TimeSeriesExam, a multiple-choice benchmark using synthetic time series to evaluate LLMs across five core reasoning categories: pattern recognitionnoise understandingsimilarity analysisanomaly detection, and causality. Then, with TimeSeriesExamAgent, we scale our approach by automatically generating benchmarks from real-world datasets spanning healthcare, finance and weather domains. Through multi-dimensional quality evaluation, we demonstrate that our automatically generated benchmarks achieve diversity comparable to manually curated alternatives. However, our experiments reveal that LLM performance remains limited in both abstract time series reasoning and domain-specific applications, highlighting ongoing challenges in enabling effective time series understanding in these models. TimeSeriesExamAgent is available at https://github.com/magwiazda/TimeSeriesExamAgent.
Abstract（参考訳）: 大規模言語モデル(LLM)は、時系列モデリングタスクにおいて有望なパフォーマンスを示しているが、彼らは本当に時系列データを理解しているのだろうか? この根本的な問題に対処するために複数のベンチマークが提案されているが、ほとんどが手作業でキュレーションされ、狭いドメインや特定のスキルセットに集中している。この制限に対処するために,テンプレートの柔軟性とLCMエージェントの創造性を組み合わせた,包括的な時系列推論ベンチマークを作成するためのスケーラブルな手法を提案する。まず、合成時系列を用いたマルチチョイスベンチマークであるTimeSeriesExamを開発し、パターン認識による類似性分析アナノマ検出と因果性の評価を行う。そして、TimeSeriesExamAgentでは、医療、金融、気象ドメインにまたがる実世界のデータセットからベンチマークを自動的に生成することで、私たちのアプローチをスケールします。多次元品質評価により,自動生成したベンチマークが手作業による代替品に匹敵する多様性を達成できることが実証された。しかし,本実験の結果,LLMの性能は,抽象時系列推論とドメイン固有アプリケーションの両方において限定的であり,これらのモデルにおいて効果的な時系列理解を実現する上での課題を浮き彫りにしている。 TimeSeriesExamAgentはhttps://github.com/magwiazda/TimeSeriesExamAgent.comから入手できる。

関連論文リスト

TSAQA: Time Series Analysis Question And Answering Benchmark [85.35545785252309]
時系列データは、金融、医療、交通、環境科学といった分野における重要な応用に不可欠である。 TSAQAはタスクカバレッジを拡大し、多様な時間的分析能力を評価するために設計された新しい統合ベンチマークである。
論文参考訳（メタデータ） (2026-01-30T17:28:56Z)
Time-RA: Towards Time Series Reasoning for Anomaly with LLM Feedback [55.284574165467525]
Time-RA(Time-Series Reasoning for Anomaly)は、時系列異常検出を生成的、推論集約的なタスクに変換する。また,実世界のマルチモーダルベンチマークデータセットであるRATs40Kを導入する。
論文参考訳（メタデータ） (2025-07-20T18:02:50Z)
LAST SToP For Modeling Asynchronous Time Series [19.401463051705377]
Asynchronous Time Series に合わせたLarge Language Models (LLM) のための新しいプロンプト設計を提案する。我々のアプローチはイベント記述のリッチな自然言語を効果的に活用し、LLMはさまざまなドメインやタスクをまたがる推論において、広範囲にわたる知識の恩恵を受けることができる。さらに、モデル性能を大幅に向上させる新しいプロンプトチューニング機構であるSoft Promptingを導入し、QLoRAのような既存の微調整方法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-02-04T01:42:45Z)
ChatTS: Aligning Time Series with LLMs via Synthetic Data for Enhanced Understanding and Reasoning [10.854285913078257]
本稿では,時系列解析用に設計された新しいMLLMであるChatTSを紹介する。 ChatTSは、視覚MLLMが画像を処理する方法と同様、時系列をモダリティとして扱う。 Time Series Evol-Instructは様々な時系列Q&Aを生成し、モデルの推論能力を高めます。
論文参考訳（メタデータ） (2024-12-04T08:06:15Z)
Hierarchical Multimodal LLMs with Semantic Space Alignment for Enhanced Time Series Classification [4.5939667818289385]
HiTimeは階層的なマルチモーダルモデルであり、時間的情報を大きな言語モデルにシームレスに統合する。本研究は, 時間的特徴をLCMに組み込むことにより, 時系列解析の進歩に寄与する可能性が示唆された。
論文参考訳（メタデータ） (2024-10-24T12:32:19Z)
Deep Time Series Models: A Comprehensive Survey and Benchmark [60.742416934632416]
時系列は、その複雑でダイナミックな性質のために固有の課題を提示する。近年、時系列コミュニティで顕著なブレークスルーが見られた。多様な分析タスクのためのディープ時系列モデルの公正なベンチマークとして、時系列ライブラリ(TSLib)をリリースします。
論文参考訳（メタデータ） (2024-07-18T08:31:55Z)
AutoTimes: Autoregressive Time Series Forecasters via Large Language Models [67.83502953961505]
AutoTimesは時系列を言語トークンの埋め込み空間に投影し、任意の長さで将来予測を生成する。時系列をプロンプトとして定式化し、ルックバックウィンドウを越えて予測のコンテキストを拡張する。 AutoTimesは、トレーニング可能なパラメータが0.1%、トレーニング/推論のスピードアップが5ドル以上で最先端を実現している。
論文参考訳（メタデータ） (2024-02-04T06:59:21Z)
Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。 Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文参考訳（メタデータ） (2023-10-03T01:31:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。