論文の概要: Chain-of-thought Reviewing and Correction for Time Series Question Answering
- arxiv url: http://arxiv.org/abs/2512.22627v1
- Date: Sat, 27 Dec 2025 15:54:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.145953
- Title: Chain-of-thought Reviewing and Correction for Time Series Question Answering
- Title(参考訳): 時系列質問応答の連鎖と訂正
- Authors: Chen Su, Yuanhe Tian, Yan Song,
- Abstract要約: 本稿では,時系列質問応答の明示的な補正機構を備えた多段階推論を行うT3LLMを提案する。
このフレームワーク内では、作業者は構造化されたプロンプトの下で段階的思考連鎖(CoT)を生成し、レビュアーは推論を検査し、誤ったステップを特定し、修正的なコメントを提供する。
複数の実世界のTSQAベンチマークの実験により、T3LLMは強力なLLMベースのベースラインに対して最先端のパフォーマンスを達成することが示された。
- 参考スコア(独自算出の注目度): 22.889720488678076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the advancement of large language models (LLMs), diverse time series analysis tasks are reformulated as time series question answering (TSQA) through a unified natural language interface. However, existing LLM-based approaches largely adopt general natural language processing techniques and are prone to reasoning errors when handling complex numerical sequences. Different from purely textual tasks, time series data are inherently verifiable, enabling consistency checking between reasoning steps and the original input. Motivated by this property, we propose T3LLM, which performs multi-step reasoning with an explicit correction mechanism for time series question answering. The T3LLM framework consists of three LLMs, namely, a worker, a reviewer, and a student, that are responsible for generation, review, and reasoning learning, respectively. Within this framework, the worker generates step-wise chains of thought (CoT) under structured prompts, while the reviewer inspects the reasoning, identifies erroneous steps, and provides corrective comments. The collaboratively generated corrected CoT are used to fine-tune the student model, internalizing multi-step reasoning and self-correction into its parameters. Experiments on multiple real-world TSQA benchmarks demonstrate that T3LLM achieves state-of-the-art performance over strong LLM-based baselines.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩に伴い、時系列解析タスクは、統合された自然言語インタフェースを通じて時系列質問応答(TSQA)として再構成される。
しかし、既存のLLMベースのアプローチは、一般的に自然言語処理技術を採用しており、複雑な数値列を扱う際にエラーを推論する傾向がある。
純粋にテキストのタスクとは異なり、時系列データは本質的に検証可能であり、推論ステップと元の入力との整合性チェックを可能にする。
そこで本稿では,T3LLMを提案する。T3LLMは時系列質問応答の明示的な補正機構を備えた多段階推論を行う。
T3LLMフレームワークは、それぞれ生成、レビュー、推論学習を担当する労働者、レビュアー、学生の3つのLLMで構成されている。
このフレームワーク内では、作業者は構造化されたプロンプトの下で段階的に思考の連鎖(CoT)を生成し、レビュアーは推論を検査し、誤ったステップを特定し、修正的なコメントを提供する。
協調的に生成されたCoTは、学生モデルを微調整し、多段階推論と自己補正をパラメータに内在化するために使用される。
複数の実世界のTSQAベンチマークの実験により、T3LLMは強力なLLMベースのベースラインよりも最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Enhancing LLM Reasoning for Time Series Classification by Tailored Thinking and Fused Decision [8.256998757769322]
ReasonTSC は時系列分類のための LLM 推論を活用するために設計されたフレームワークである。
時系列データの本質的な特性について、モデルを熟考する。
これは、例えばドメイン固有の時系列モデルのようなプラグイン分類器からの予測と信頼スコアを、インコンテキストの例として統合する。
論文 参考訳(メタデータ) (2025-06-01T03:15:54Z) - SQuARE: Sequential Question Answering Reasoning Engine for Enhanced Chain-of-Thought in Large Language Models [4.328173053224842]
本稿では、自己干渉パラダイムによる推論を改善するために設計された新しいプロンプト技術であるSQuAREを紹介する。
CoTフレームワーク上に構築されているSQuAREでは,メインクエリに対処する前に,複数の補助的な質問の生成と解決をモデルに促している。
Llama 3 と GPT-4o モデルを用いて複数の質問応答データセットを用いて評価を行った結果,SQuARE が従来の CoT プロンプトや既存のrephrase-and- corresponding 手法をはるかに上回っていることが示された。
論文 参考訳(メタデータ) (2025-02-13T15:07:20Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - UnSeenTimeQA: Time-Sensitive Question-Answering Beyond LLMs' Memorization [34.257914212541394]
本稿では,新しいデータ汚染のない質問応答ベンチマークUnSeenTimeQAを紹介する。
既存のTSQAベンチマークとは異なるのは、現実世界に根ざしたWeb検索可能なクエリを避けることだ。
大きな言語モデル(LLM)は、訓練前の段階で得られた事実知識に依存することなく、真の時間的推論を行う必要がある。
論文 参考訳(メタデータ) (2024-07-03T22:02:07Z) - InfiMM-Eval: Complex Open-Ended Reasoning Evaluation For Multi-Modal
Large Language Models [50.03163753638256]
MLLM(Multi-modal Large Language Models)は人工知能の分野で注目されている。
本ベンチマークは, 帰納的, 帰納的, 類推的推論の3つの主要な推論カテゴリから構成される。
我々は,この厳密に開発されたオープンエンド多段階精巧な推論ベンチマークを用いて,代表MLLMの選択を評価する。
論文 参考訳(メタデータ) (2023-11-20T07:06:31Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。