論文の概要: LLM-as-a-Judge for Time Series Explanations
- arxiv url: http://arxiv.org/abs/2604.02118v1
- Date: Thu, 02 Apr 2026 14:55:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.866013
- Title: LLM-as-a-Judge for Time Series Explanations
- Title(参考訳): LLM-as-a-Judge for Time Series Explanations
- Authors: Preetham Sivalingam, Murari Mandal, Saurabh Deshpande, Dhruv Kumar,
- Abstract要約: 本研究では,参照自由条件下での時系列記述のジェネレータおよび評価器として,大規模言語モデルについて検討する。
我々は、7種類のクエリータイプに対して350の時系列ケースのベンチマークを構築し、それぞれが正しい、部分的に正しい、誤った説明をペアリングした。
我々は、説明生成、相対ランク付け、独立スコアリング、複数異常検出の4つのタスクにわたるモデルを評価する。
- 参考スコア(独自算出の注目度): 7.771378647684901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating factual correctness of LLM generated natural language explanations grounded in time series data remains an open challenge. Although modern models generate textual interpretations of numerical signals, existing evaluation methods are limited: reference based similarity metrics and consistency checking models require ground truth explanations, while traditional time series methods operate purely on numerical values and cannot assess free form textual reasoning. Thus, no general purpose method exists to directly verify whether an explanation is faithful to underlying time series data without predefined references or task specific rules. We study large language models as both generators and evaluators of time series explanations in a reference free setting, where given a time series, question, and candidate explanation, the evaluator assigns a ternary correctness label based on pattern identification, numeric accuracy, and answer faithfulness, enabling principled scoring and comparison. To support this, we construct a synthetic benchmark of 350 time series cases across seven query types, each paired with correct, partially correct, and incorrect explanations. We evaluate models across four tasks: explanation generation, relative ranking, independent scoring, and multi anomaly detection. Results show a clear asymmetry: generation is highly pattern dependent and exhibits systematic failures on certain query types, with accuracies ranging from 0.00 to 0.12 for Seasonal Drop and Volatility Shift, to 0.94 to 0.96 for Structural Break, while evaluation is more stable, with models correctly ranking and scoring explanations even when their own outputs are incorrect. These findings demonstrate feasibility of data grounded LLM based evaluation for time series explanations and highlight their potential as reliable evaluators of data grounded reasoning in the time series domain.
- Abstract(参考訳): LLMが生成した時系列データに基づく自然言語説明の事実的正確性を評価することは、未解決の課題である。
参照ベースの類似度指標と整合性チェックモデルでは、基底的な真理的な説明が必要であり、従来の時系列法は数値に基づいて純粋に動作し、自由形式のテキスト推論を評価できない。
したがって、事前に定義された参照やタスク固有のルールを使わずに、説明が基礎となる時系列データに忠実かどうかを直接検証する汎用的手法は存在しない。
本研究では, 時系列, 質問, 候補説明が与えられた基準自由条件下での時系列説明の生成元および評価子として, パターン識別, 数値精度, 回答忠実度に基づいて3次正解ラベルを割り当て, 原理的スコアリングと比較を可能にした。
これをサポートするために,7つのクエリタイプに対して350の時系列ケースを合成したベンチマークを構築した。
我々は、説明生成、相対ランク付け、独立スコアリング、複数異常検出の4つのタスクにわたるモデルを評価する。
生成は高いパターン依存であり、特定のクエリタイプに対して体系的な失敗を示し、季節的なドロップとボラティリティシフトは0.00から0.12、構造的ブレークは0.94から0.96まで、評価はより安定しており、モデルが正しい出力であっても、説明を正しくランク付けし評価する。
これらの結果は、時系列説明のためのデータ基底式LCMによる評価の実現可能性を示し、時系列領域におけるデータ基底型推論の信頼性評価者としての可能性を強調した。
関連論文リスト
- Chain-of-thought Reviewing and Correction for Time Series Question Answering [22.889720488678076]
本稿では,時系列質問応答の明示的な補正機構を備えた多段階推論を行うT3LLMを提案する。
このフレームワーク内では、作業者は構造化されたプロンプトの下で段階的思考連鎖(CoT)を生成し、レビュアーは推論を検査し、誤ったステップを特定し、修正的なコメントを提供する。
複数の実世界のTSQAベンチマークの実験により、T3LLMは強力なLLMベースのベースラインに対して最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2025-12-27T15:54:18Z) - Time-RA: Towards Time Series Reasoning for Anomaly with LLM Feedback [55.284574165467525]
Time-RA(Time-Series Reasoning for Anomaly)は、時系列異常検出を生成的、推論集約的なタスクに変換する。
また,実世界のマルチモーダルベンチマークデータセットであるRATs40Kを導入する。
論文 参考訳(メタデータ) (2025-07-20T18:02:50Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - XForecast: Evaluating Natural Language Explanations for Time Series Forecasting [72.57427992446698]
時系列予測は、特に正確な予測に依存するステークホルダーにとって、意思決定を支援する。
伝統的に説明可能なAI(XAI)メソッドは、機能や時間的重要性を基盤とするものであり、専門家の知識を必要とすることが多い。
時系列データにおける複雑な因果関係のため,予測NLEの評価は困難である。
論文 参考訳(メタデータ) (2024-10-18T05:16:39Z) - Robust Explainer Recommendation for Time Series Classification [4.817429789586127]
時系列分類は、人間の活動認識、スポーツ分析、一般的な感覚といった分野に共通する課題である。
近年,サリエンシマップの形での説明を提供するため,時系列に多種多様な手法が提案され,適用されている。
本稿では,時系列分類のための説明手法を定量的に評価し,ランク付けするための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-06-08T18:49:23Z) - Encoding Time-Series Explanations through Self-Supervised Model Behavior
Consistency [26.99599329431296]
トレーニング説明書の時系列一貫性モデルであるTimeXを提案する。
TimeXは、事前訓練された時系列モデルの振る舞いを模倣するために解釈可能なサロゲートを訓練する。
我々は8つの合成および実世界のデータセット上でTimeXを評価し、その性能を最先端の解釈可能性手法と比較した。
論文 参考訳(メタデータ) (2023-06-03T13:25:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。