論文の概要: TS-Agent: A Time Series Reasoning Agent with Iterative Statistical Insight Gathering
- arxiv url: http://arxiv.org/abs/2510.07432v1
- Date: Wed, 08 Oct 2025 18:31:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.663679
- Title: TS-Agent: A Time Series Reasoning Agent with Iterative Statistical Insight Gathering
- Title(参考訳): TS-Agent: 反復統計インサイト収集による時系列推論エージェント
- Authors: Penghang Liu, Elizabeth Fons, Svitlana Vyetrenko, Daniel Borrajo, Vamsi Potluru, Manuela Veloso,
- Abstract要約: 大規模言語モデル(LLM)のための時系列推論エージェントTS-Agentを提案する。
時系列をテキストトークン、画像、埋め込みにマッピングする代わりに、我々のエージェントは原子演算子を介して生の数値列と相互作用する。
実験の結果,TS-Agent は理解ベンチマークの最先端 LLM に匹敵する性能を達成できた。
- 参考スコア(独自算出の注目度): 16.95452463476229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown strong abilities in reasoning and problem solving, but recent studies reveal that they still struggle with time series reasoning tasks, where outputs are often affected by hallucination or knowledge leakage. In this work we propose TS-Agent, a time series reasoning agent that leverages LLMs strictly for what they excel at, i.e., gathering evidence and synthesizing it into conclusions through step-by-step reasoning, while delegating the extraction of statistical and structural information to time series analytical tools. Instead of mapping time series into text tokens, images, or embeddings, our agent interacts with raw numeric sequences through atomic operators, records outputs in an explicit evidence log, and iteratively refines its reasoning under the guidance of a self-critic and a final quality gate. This design avoids multi-modal alignment training, preserves the native form of time series, ensures interpretability and verifiability, and mitigates knowledge leakage or hallucination. Empirically, we evaluate the agent on established benchmarks. Our experiments show that TS-Agent achieves performance comparable to state-of-the-art LLMs on understanding benchmarks, and delivers significant improvements on reasoning tasks, where existing models often rely on memorization and fail in zero-shot settings.
- Abstract(参考訳): 大規模言語モデル(LLM)は推論や問題解決に強い能力を示してきたが、近年の研究により、しばしば幻覚や知識リークの影響を受けやすい時系列推論タスクに苦戦していることが明らかとなった。
本研究では,LSMを厳格に活用する時系列推論エージェントTS-Agentを提案する。
時系列をテキストトークン、画像、埋め込みにマッピングする代わりに、我々のエージェントは、原子演算子を介して生の数値列と相互作用し、明示的なエビデンスログに出力を記録し、自己批判的かつ最終的な品質ゲートの指導の下でその推論を反復的に洗練する。
この設計は、マルチモーダルアライメントトレーニングを回避し、時系列のネイティブ形式を保持し、解釈可能性と検証性を確保し、知識リークや幻覚を緩和する。
実証的に,確立したベンチマーク上でエージェントを評価する。
実験の結果,TS-Agent はベンチマークの理解において最先端の LLM に匹敵する性能を達成し,既存のモデルでは暗記やゼロショット設定でのフェールといった推論タスクを大幅に改善した。
関連論文リスト
- Eliciting Chain-of-Thought Reasoning for Time Series Analysis using Reinforcement Learning [2.426309874608745]
複雑な数値時系列解析は、しばしば現在のモデルの範囲を超えて多段階の推論能力を必要とする。
我々は,大規模言語モデルを訓練して,多種多様な時系列タスクに対して,検証可能な報酬付き強化学習(RL)を用いた推論を行うための,最初のフレームワークであるCOUNTS(Chain Of thought for Understanding Numerical Time Series)を紹介した。
実験により、中間CoT推論を用いたこのRL駆動方式は、様々な時系列解析タスクにおけるLLM性能を大幅に向上させ、複雑な時間的データ推論の新たな可能性を開くことを実証した。
論文 参考訳(メタデータ) (2025-10-01T17:02:28Z) - AXIS: Explainable Time Series Anomaly Detection with Large Language Models [33.68487894996624]
AXISは、時系列理解のための凍結したLarge Language Models (LLM) を規定するフレームワークである。
LLMは離散トークンで動作し、長い連続的な信号を直接処理するのに苦労する。
文脈的接地とパターンレベルのセマンティクスを監督するマルチフォーマットの質問と合理性を特徴とする新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-09-29T07:24:22Z) - GSM-Agent: Understanding Agentic Reasoning Using Controllable Environments [56.007498767771075]
GSM-Agentは複雑な環境でエージェント推論を評価するための新しいベンチマークである。
我々は,環境文書の埋め込みをノードにクラスタ化することでエージェント推論パターンを分析し,各ツールコールを最も近いノードにマッピングする。
本稿では,LLMのエージェント推論性能を向上させるためのツール拡張テストタイムスケーリング手法を提案する。
論文 参考訳(メタデータ) (2025-09-26T07:24:37Z) - Enhancing LLM Reasoning for Time Series Classification by Tailored Thinking and Fused Decision [8.256998757769322]
ReasonTSC は時系列分類のための LLM 推論を活用するために設計されたフレームワークである。
時系列データの本質的な特性について、モデルを熟考する。
これは、例えばドメイン固有の時系列モデルのようなプラグイン分類器からの予測と信頼スコアを、インコンテキストの例として統合する。
論文 参考訳(メタデータ) (2025-06-01T03:15:54Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Learning to Reason Over Time: Timeline Self-Reflection for Improved Temporal Reasoning in Language Models [21.579319926212296]
大規模言語モデル(LLM)は、一貫性のあるテキストを生成し、コンテキストを理解し、推論タスクを実行するための強力なツールとして登場した。
彼らは時間的推論に苦しむが、それはイベントシーケンシングや時間的関係、時間的関係などの時間的関連情報を処理する必要がある。
我々は,タイムライン構築と反復的自己回帰を組み合わせた多段階プロセスを通じて,LLMの時間的推論能力を高める新しいフレームワークであるTISERを紹介する。
論文 参考訳(メタデータ) (2025-04-07T16:51:45Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。