論文の概要: TimeMaster: Training Time-Series Multimodal LLMs to Reason via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.13705v1
- Date: Mon, 16 Jun 2025 17:12:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:49.095916
- Title: TimeMaster: Training Time-Series Multimodal LLMs to Reason via Reinforcement Learning
- Title(参考訳): TimeMaster:強化学習による時系列マルチモーダルLLMの推論訓練
- Authors: Junru Zhang, Lang Feng, Xu Guo, Yuhan Wu, Yabo Dong, Duanqing Xu,
- Abstract要約: 時系列推論は、マルチモーダル大言語モデル(MLLM)において重要な課題である。
時系列MLLMを可視化した時系列入力やタスクプロンプト上で直接構造化・解釈可能な推論を行うことができる強化学習ベースのTimeMasterを導入する。
TimeMasterは最先端のパフォーマンスを達成し、古典的な時系列モデルと数ショットのGPT-4oをそれぞれ14.6%以上、パフォーマンスが7.3%以上向上した。
- 参考スコア(独自算出の注目度): 6.860030590512406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Time-series reasoning remains a significant challenge in multimodal large language models (MLLMs) due to the dynamic temporal patterns, ambiguous semantics, and lack of temporal priors. In this work, we introduce TimeMaster, a reinforcement learning (RL)-based method that enables time-series MLLMs to perform structured, interpretable reasoning directly over visualized time-series inputs and task prompts. TimeMaster adopts a three-part structured output format, reasoning, classification, and domain-specific extension, and is optimized via a composite reward function that aligns format adherence, prediction accuracy, and open-ended insight quality. The model is trained using a two-stage pipeline: we first apply supervised fine-tuning (SFT) to establish a good initialization, followed by Group Relative Policy Optimization (GRPO) at the token level to enable stable and targeted reward-driven improvement in time-series reasoning. We evaluate TimeMaster on the TimerBed benchmark across six real-world classification tasks based on Qwen2.5-VL-3B-Instruct. TimeMaster achieves state-of-the-art performance, outperforming both classical time-series models and few-shot GPT-4o by over 14.6% and 7.3% performance gain, respectively. Notably, TimeMaster goes beyond time-series classification: it also exhibits expert-like reasoning behavior, generates context-aware explanations, and delivers domain-aligned insights. Our results highlight that reward-driven RL can be a scalable and promising path toward integrating temporal understanding into time-series MLLMs.
- Abstract(参考訳): 時系列推論は、動的時間的パターン、曖昧な意味論、時間的先行性の欠如により、マルチモーダルな大規模言語モデル(MLLM)において重要な課題である。
本研究では,時系列MLLMを可視化した時系列入力やタスクプロンプト上で直接構造化・解釈可能な推論を行うための強化学習(RL)に基づくTimeMasterを紹介する。
TimeMasterは3部構成の出力フォーマット、推論、分類、ドメイン固有の拡張を採用しており、フォーマットの適合性、予測精度、オープンな洞察品質を調整した複合報酬関数によって最適化されている。
まず、教師付き微調整(SFT)を用いて、優れた初期化を確立するとともに、トークンレベルでのグループ相対ポリシー最適化(GRPO)を用いて、時系列推論における安定的で目標とする報酬駆動型改善を実現する。
我々は,Qwen2.5-VL-3B-Instructに基づいて,TimerBedベンチマークのTimeMasterを評価する。
TimeMasterは最先端のパフォーマンスを達成し、古典的な時系列モデルと数ショットのGPT-4oをそれぞれ14.6%以上、パフォーマンスが7.3%以上向上した。
また、専門家のような推論の振る舞いを示し、コンテキストを意識した説明を生成し、ドメインに沿った洞察を提供する。
その結果,報酬駆動型RLは時系列MLLMに時間的理解を統合するためのスケーラブルで有望な経路であることがわかった。
関連論文リスト
- LLM-PS: Empowering Large Language Models for Time Series Forecasting with Temporal Patterns and Semantics [56.99021951927683]
Time Series Forecasting (TSF) は、金融計画や健康モニタリングなど、多くの現実世界のドメインにおいて重要である。
既存のLarge Language Models (LLM) は通常、時系列データ固有の特性を無視するため、非最適に実行する。
時系列データから基本的なtextitPatterns と有意義な textitSemantics を学習し,TLF のための LLM-PS を提案する。
論文 参考訳(メタデータ) (2025-03-12T11:45:11Z) - Multi-Patch Prediction: Adapting LLMs for Time Series Representation
Learning [22.28251586213348]
aLLM4TSは、時系列表現学習にLarge Language Models(LLM)を適用する革新的なフレームワークである。
われわれのフレームワークの特筆すべき要素はパッチワイドデコーディング層である。
論文 参考訳(メタデータ) (2024-02-07T13:51:26Z) - TimeSiam: A Pre-Training Framework for Siamese Time-Series Modeling [67.02157180089573]
時系列事前トレーニングは、最近、ラベルのコストを削減し、下流の様々なタスクに利益をもたらす可能性があるとして、広く注目を集めている。
本稿では,シームズネットワークに基づく時系列の簡易かつ効果的な自己教師型事前学習フレームワークとしてTimeSiamを提案する。
論文 参考訳(メタデータ) (2024-02-04T13:10:51Z) - AutoTimes: Autoregressive Time Series Forecasters via Large Language Models [67.83502953961505]
AutoTimesは時系列を言語トークンの埋め込み空間に投影し、任意の長さで将来予測を生成する。
時系列をプロンプトとして定式化し、ルックバックウィンドウを越えて予測のコンテキストを拡張する。
AutoTimesは、トレーニング可能なパラメータが0.1%、トレーニング/推論のスピードアップが5ドル以上で最先端を実現している。
論文 参考訳(メタデータ) (2024-02-04T06:59:21Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z) - LLM4TS: Aligning Pre-Trained LLMs as Data-Efficient Time-Series Forecasters [11.796765525301051]
事前学習された大言語モデル(LLM)を用いた時系列予測のためのフレームワークを提案する。
LLM4TSは、LLMを時系列データのニュアンスと整合させる2段階の微調整戦略と、下流の時系列予測タスクの予測微調整段階から構成される。
我々のフレームワークは、事前訓練されたLLM内に多段階の時間データを統合し、時間固有の情報を解釈する能力を向上する新しい2段階集約手法を特徴としている。
論文 参考訳(メタデータ) (2023-08-16T16:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。