論文の概要: Evaluating System 1 vs. 2 Reasoning Approaches for Zero-Shot Time Series Forecasting: A Benchmark and Insights
- arxiv url: http://arxiv.org/abs/2503.01895v2
- Date: Fri, 14 Mar 2025 00:16:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 15:33:20.486051
- Title: Evaluating System 1 vs. 2 Reasoning Approaches for Zero-Shot Time Series Forecasting: A Benchmark and Insights
- Title(参考訳): ゼロショット時系列予測のためのシステム1対2推論アプローチ:ベンチマークとインサイト
- Authors: Haoxin Liu, Zhiyuan Zhao, Shiduo Li, B. Aditya Prakash,
- Abstract要約: 自己整合性は、最も効果的なテスト時の推論戦略として現れます。
グループ相対的な政策最適化は、訓練後の推論能力を高めるためにより適切なアプローチとして現れる。
- 参考スコア(独自算出の注目度): 21.663682332422216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning ability is crucial for solving challenging tasks. With the advancement of foundation models, such as the emergence of large language models (LLMs), a wide range of reasoning strategies has been proposed, including test-time enhancements, such as Chain-ofThought, and post-training optimizations, as used in DeepSeek-R1. While these reasoning strategies have demonstrated effectiveness across various challenging language or vision tasks, their applicability and impact on time-series forecasting (TSF), particularly the challenging zero-shot TSF, remain largely unexplored. In particular, it is unclear whether zero-shot TSF benefits from reasoning and, if so, what types of reasoning strategies are most effective. To bridge this gap, we propose ReC4TS, the first benchmark that systematically evaluates the effectiveness of popular reasoning strategies when applied to zero-shot TSF tasks. ReC4TS conducts comprehensive evaluations across datasets spanning eight domains, covering both unimodal and multimodal with short-term and longterm forecasting tasks. More importantly, ReC4TS provides key insights: (1) Self-consistency emerges as the most effective test-time reasoning strategy; (2) Group-relative policy optimization emerges as a more suitable approach for incentivizing reasoning ability during post-training; (3) Multimodal TSF benefits more from reasoning strategies compared to unimodal TSF. Beyond these insights, ReC4TS establishes two pioneering starting blocks to support future zero-shot TSF reasoning research: (1) A novel dataset, TimeThinking, containing forecasting samples annotated with reasoning trajectories from multiple advanced LLMs, and (2) A new and simple test-time scaling-law validated on foundational TSF models enabled by self-consistency reasoning strategy. All data and code are publicly accessible at: https://github.com/AdityaLab/OpenTimeR
- Abstract(参考訳): 問題の解決には推論能力が不可欠だ。
大規模言語モデル(LLM)の出現など,基礎モデルの進歩に伴い,Chain-ofThoughtなどのテスト時間拡張や,DeepSeek-R1で使用されているポストトレーニング最適化など,幅広い推論戦略が提案されている。
これらの推論戦略は、様々な難解な言語や視覚タスクにおいて有効性を示しているが、その適用性と時系列予測(TSF)への影響、特に難解なゼロショットTSFは、探索されていないままである。
特に、ゼロショットTSFが推論の恩恵を受けるか、もしそうであれば、どのタイプの推論戦略が最も効果的かは定かではない。
このギャップを埋めるため、ゼロショットTSFタスクに適用した場合の一般的な推論手法の有効性を体系的に評価する最初のベンチマークであるReC4TSを提案する。
ReC4TSは8つのドメインにまたがるデータセットを包括的に評価し、短期的および長期的な予測タスクで、ユニモーダルとマルチモーダルの両方をカバーする。
さらに重要なのは,1) 自己整合性が最も効果的なテスト時間推論戦略として出現する,2) グループ相対的政策最適化は,トレーニング後の推論能力を高めるためのより適切なアプローチとして出現する,3) マルチモーダル TSF は,単調な TSF よりも推論戦略の恩恵を受ける,といった点だ。
これらの知見の他に、ReC4TSは、将来のゼロショットSF推論研究を支援するための、2つの先駆的な開始ブロックを確立している。(1)新しいデータセットであるTimeThinkingは、複数の高度なLCMからの推論軌跡を付加した予測サンプルを含み、(2)自己整合推論戦略によって実現された基礎的TSFモデルに基づいて検証された、新しいシンプルなテストタイムスケーリング法である。
すべてのデータとコードは、https://github.com/AdityaLab/OpenTimeRで公開されています。
関連論文リスト
- a1: Steep Test-time Scaling Law via Environment Augmented Generation [45.19240207975418]
Environment Augmented Generation (EAG) は、大規模言語モデルの推論をリアルタイムな環境フィードバックによって強化するフレームワークである。
EAGは、実行フィードバックと分岐探索の緊密な統合を通じて、意図的にバックトラックと戦略的再計画を可能にする。
A1-32Bモデルは、すべてのベンチマークで類似サイズのモデル間で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-20T12:55:59Z) - SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM [18.275547804539016]
Two-Staged History-Resampling Policy 最適化は AIME24 と LiveCodeBench ベンチマークにおける DeepSeek-R1-Zero-32B のパフォーマンスを上回る。
本研究では,(1)数学的推論と符号化能力の両立を図った2段階のクロスドメイン・トレーニングパラダイム,(2)非効率なサンプルに対処する手法であるヒストリ・サンプリング(HR)を紹介する。
論文 参考訳(メタデータ) (2025-04-19T13:06:03Z) - R-TPT: Improving Adversarial Robustness of Vision-Language Models through Test-Time Prompt Tuning [97.49610356913874]
視覚言語モデル(VLM)のためのロバストテスト時プロンプトチューニング(R-TPT)を提案する。
R-TPTは、推論段階における敵攻撃の影響を緩和する。
プラグアンドプレイの信頼性に基づく重み付きアンサンブル戦略を導入し,防御強化を図る。
論文 参考訳(メタデータ) (2025-04-15T13:49:31Z) - Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models [54.04678363287392]
大規模言語モデル(LLM)は複雑なタスクにおいて顕著な機能を示した。
OpenAI o1とDeepSeek-R1の最近の進歩は、System-2推論ドメインのパフォーマンスをさらに改善した。
論文 参考訳(メタデータ) (2025-03-20T17:59:38Z) - Inference-Time Computations for LLM Reasoning and Planning: A Benchmark and Insights [49.42133807824413]
本稿では,大規模言語モデル(LLM)の複雑な課題解決における推論と計画能力について検討する。
近年の推論時間技術の発展は,LLM推論を追加訓練なしで向上させる可能性を示している。
OpenAIのo1モデルは、マルチステップ推論と検証の新たな使用を通じて、有望なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-02-18T04:11:29Z) - Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。
本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文 参考訳(メタデータ) (2025-02-17T16:56:23Z) - Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。
本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文 参考訳(メタデータ) (2024-10-08T05:26:28Z) - Strategic Chain-of-Thought: Guiding Accurate Reasoning in LLMs through Strategy Elicitation [16.350747493026432]
CoT(Chain-of-Thought)パラダイムは,大規模言語モデル(LLM)の推論能力向上のための重要なアプローチとして登場した。
中間的推論ステップを生成する前に戦略的知識を統合することでLCM性能を向上するための textbfStrategic Chain-of-Thought (SCoT) を提案する。
SCoTは1つのプロンプトの中で2段階のアプローチを採用し、まず効果的な問題解決戦略を導き、次に高品質なCoTパスと最終回答の生成を導くのに使用される。
論文 参考訳(メタデータ) (2024-09-05T06:28:05Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Break the Chain: Large Language Models Can be Shortcut Reasoners [18.047917626825548]
CoT(Chain-of-Thought)推論は複雑なモジュールを利用するが、高いトークン消費、適用可能性の制限、思考上の課題によって妨げられる。
本稿では、複雑な論理的および常識的推論タスクを含む算術を超えて、CoTプロンプトの批判的評価を行う。
そこで我々は,「チェーンを破る」戦略を通じて,人型やショートカットを言語モデル(LM)に統合することを提案する。
論文 参考訳(メタデータ) (2024-06-04T14:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。