論文の概要: Evaluating System 1 vs. 2 Reasoning Approaches for Zero-Shot Time Series Forecasting: A Benchmark and Insights
- arxiv url: http://arxiv.org/abs/2503.01895v2
- Date: Fri, 14 Mar 2025 00:16:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 16:13:21.310877
- Title: Evaluating System 1 vs. 2 Reasoning Approaches for Zero-Shot Time Series Forecasting: A Benchmark and Insights
- Title(参考訳): ゼロショット時系列予測のためのシステム1対2推論アプローチ:ベンチマークとインサイト
- Authors: Haoxin Liu, Zhiyuan Zhao, Shiduo Li, B. Aditya Prakash,
- Abstract要約: 自己整合性は、最も効果的なテスト時の推論戦略として現れます。
グループ相対的な政策最適化は、訓練後の推論能力を高めるためにより適切なアプローチとして現れる。
- 参考スコア(独自算出の注目度): 21.663682332422216
- License:
- Abstract: Reasoning ability is crucial for solving challenging tasks. With the advancement of foundation models, such as the emergence of large language models (LLMs), a wide range of reasoning strategies has been proposed, including test-time enhancements, such as Chain-ofThought, and post-training optimizations, as used in DeepSeek-R1. While these reasoning strategies have demonstrated effectiveness across various challenging language or vision tasks, their applicability and impact on time-series forecasting (TSF), particularly the challenging zero-shot TSF, remain largely unexplored. In particular, it is unclear whether zero-shot TSF benefits from reasoning and, if so, what types of reasoning strategies are most effective. To bridge this gap, we propose ReC4TS, the first benchmark that systematically evaluates the effectiveness of popular reasoning strategies when applied to zero-shot TSF tasks. ReC4TS conducts comprehensive evaluations across datasets spanning eight domains, covering both unimodal and multimodal with short-term and longterm forecasting tasks. More importantly, ReC4TS provides key insights: (1) Self-consistency emerges as the most effective test-time reasoning strategy; (2) Group-relative policy optimization emerges as a more suitable approach for incentivizing reasoning ability during post-training; (3) Multimodal TSF benefits more from reasoning strategies compared to unimodal TSF. Beyond these insights, ReC4TS establishes two pioneering starting blocks to support future zero-shot TSF reasoning research: (1) A novel dataset, TimeThinking, containing forecasting samples annotated with reasoning trajectories from multiple advanced LLMs, and (2) A new and simple test-time scaling-law validated on foundational TSF models enabled by self-consistency reasoning strategy. All data and code are publicly accessible at: https://github.com/AdityaLab/OpenTimeR
- Abstract(参考訳): 問題の解決には推論能力が不可欠だ。
大規模言語モデル(LLM)の出現など,基礎モデルの進歩に伴い,Chain-ofThoughtなどのテスト時間拡張や,DeepSeek-R1で使用されているポストトレーニング最適化など,幅広い推論戦略が提案されている。
これらの推論戦略は、様々な難解な言語や視覚タスクにおいて有効性を示しているが、その適用性と時系列予測(TSF)への影響、特に難解なゼロショットTSFは、探索されていないままである。
特に、ゼロショットTSFが推論の恩恵を受けるか、もしそうであれば、どのタイプの推論戦略が最も効果的かは定かではない。
このギャップを埋めるため、ゼロショットTSFタスクに適用した場合の一般的な推論手法の有効性を体系的に評価する最初のベンチマークであるReC4TSを提案する。
ReC4TSは8つのドメインにまたがるデータセットを包括的に評価し、短期的および長期的な予測タスクで、ユニモーダルとマルチモーダルの両方をカバーする。
さらに重要なのは,1) 自己整合性が最も効果的なテスト時間推論戦略として出現する,2) グループ相対的政策最適化は,トレーニング後の推論能力を高めるためのより適切なアプローチとして出現する,3) マルチモーダル TSF は,単調な TSF よりも推論戦略の恩恵を受ける,といった点だ。
これらの知見の他に、ReC4TSは、将来のゼロショットSF推論研究を支援するための、2つの先駆的な開始ブロックを確立している。(1)新しいデータセットであるTimeThinkingは、複数の高度なLCMからの推論軌跡を付加した予測サンプルを含み、(2)自己整合推論戦略によって実現された基礎的TSFモデルに基づいて検証された、新しいシンプルなテストタイムスケーリング法である。
すべてのデータとコードは、https://github.com/AdityaLab/OpenTimeRで公開されています。
関連論文リスト
- Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights [49.42133807824413]
本稿では,大規模言語モデル(LLM)の複雑な課題解決における推論と計画能力について検討する。
近年の推論時間技術の発展は,LLM推論を追加訓練なしで向上させる可能性を示している。
OpenAIのo1モデルは、マルチステップ推論と検証の新たな使用を通じて、有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-02-18T04:11:29Z) - Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。
本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文 参考訳(メタデータ) (2025-02-17T16:56:23Z) - Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。
本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文 参考訳(メタデータ) (2024-10-08T05:26:28Z) - On The Planning Abilities of OpenAI's o1 Models: Feasibility, Optimality, and Generalizability [59.72892401927283]
さまざまなベンチマークタスクでOpenAIのo1モデルの計画能力を評価する。
その結果,o1-preview は GPT-4 よりもタスク制約に順応していることがわかった。
論文 参考訳(メタデータ) (2024-09-30T03:58:43Z) - Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation [16.350747493026432]
CoT(Chain-of-Thought)パラダイムは,大規模言語モデル(LLM)の推論能力向上のための重要なアプローチとして登場した。
中間的推論ステップを生成する前に戦略的知識を統合することでLCM性能を向上するための textbfStrategic Chain-of-Thought (SCoT) を提案する。
SCoTは1つのプロンプトの中で2段階のアプローチを採用し、まず効果的な問題解決戦略を導き、次に高品質なCoTパスと最終回答の生成を導くのに使用される。
論文 参考訳(メタデータ) (2024-09-05T06:28:05Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Break the Chain: Large Language Models Can be Shortcut Reasoners [18.047917626825548]
CoT(Chain-of-Thought)推論は複雑なモジュールを利用するが、高いトークン消費、適用可能性の制限、思考上の課題によって妨げられる。
本稿では、複雑な論理的および常識的推論タスクを含む算術を超えて、CoTプロンプトの批判的評価を行う。
そこで我々は,「チェーンを破る」戦略を通じて,人型やショートカットを言語モデル(LM)に統合することを提案する。
論文 参考訳(メタデータ) (2024-06-04T14:02:53Z) - Evidence to Generate (E2G): A Single-agent Two-step Prompting for
Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
Evidence to Generate(E2G)は、新しいシングルエージェント、2ステッププロンプトフレームワークである。
証明されていない推論の主張の代わりに、E2Gは文脈で明確に言及された思考列にのみ焦点をあてる。
ツールは、幅広い知識集約的な推論と生成タスクにおいて、顕著な結果を達成する。
論文 参考訳(メタデータ) (2024-01-11T09:49:15Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。