論文の概要: Investigating Compositional Reasoning in Time Series Foundation Models
- arxiv url: http://arxiv.org/abs/2502.06037v1
- Date: Sun, 09 Feb 2025 21:21:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:30:39.705444
- Title: Investigating Compositional Reasoning in Time Series Foundation Models
- Title(参考訳): 時系列基礎モデルにおける合成推論の検討
- Authors: Willa Potosnak, Cristian Challu, Mononito Goswami, Kin G. Olivares, Michał Wiliński, Nina Żukowska, Artur Dubrawski,
- Abstract要約: TSFMアーキテクチャ設計が構成的推論と一般化に与える影響について検討する。
私たちはパッチベースのトランスフォーマーが最高の理由付け性能を持っていることに気付きました。
いくつかのゼロショットのアウト・オブ・ディストリビューションのシナリオでは、これらのモデルは、イン・ディストリビューションデータに基づいてトレーニングされた移動平均と指数的スムーズな統計ベースラインより優れている。
- 参考スコア(独自算出の注目度): 16.421597202235112
- License:
- Abstract: Large pre-trained time series foundation models (TSFMs) have demonstrated promising zero-shot performance across a wide range of domains. However, a question remains: Do TSFMs succeed solely by memorizing training patterns, or do they possess the ability to reason? While reasoning is a topic of great interest in the study of Large Language Models (LLMs), it is undefined and largely unexplored in the context of TSFMs. In this work, inspired by language modeling literature, we formally define compositional reasoning in forecasting and distinguish it from in-distribution generalization. We evaluate the reasoning and generalization capabilities of 23 popular deep learning forecasting models on multiple synthetic and real-world datasets. Additionally, through controlled studies, we systematically examine which design choices in TSFMs contribute to improved reasoning abilities. Our study yields key insights into the impact of TSFM architecture design on compositional reasoning and generalization. We find that patch-based Transformers have the best reasoning performance, closely followed by residualized MLP-based architectures, which are 97\% less computationally complex in terms of FLOPs and 86\% smaller in terms of the number of trainable parameters. Interestingly, in some zero-shot out-of-distribution scenarios, these models can outperform moving average and exponential smoothing statistical baselines trained on in-distribution data. Only a few design choices, such as the tokenization method, had a significant (negative) impact on Transformer model performance.
- Abstract(参考訳): 大規模な事前訓練時系列基礎モデル (TSFM) は、幅広い領域で望まれるゼロショット性能を実証している。
TSFMはトレーニングパターンを記憶することでのみ成功するのか、それとも、推論する能力を持っているのか?
推論はLarge Language Models (LLMs) の研究において大きな関心を持つトピックであるが、TSFMの文脈では未定義であり、ほとんど探索されていない。
本研究は,言語モデリング文学に触発されて,予測における構成的推論を正式に定義し,分布内一般化と区別する。
我々は、複数の合成および実世界のデータセット上で、23の人気のあるディープラーニング予測モデルの推論と一般化能力を評価する。
さらに,制御された研究を通じて,TSFMの設計選択が推論能力の向上に寄与するかを系統的に検討した。
本研究では,TSFMアーキテクチャ設計が構成的推論と一般化に与える影響について重要な知見を得る。
パッチベースのトランスフォーマーは最良推論性能を有しており,訓練可能なパラメータの数では99%,計算量では86%,MLPベースのアーキテクチャでは97%の計算量である。
興味深いことに、いくつかのゼロショットのアウト・オブ・ディストリビューションシナリオでは、これらのモデルは、イン・ディストリビューションデータに基づいてトレーニングされた移動平均と指数スムーズな統計ベースラインよりも優れている。
トークン化法のようないくつかの設計選択は、トランスフォーマーモデルの性能に重大な(負の)影響を及ぼした。
関連論文リスト
- Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Explaining Pre-Trained Language Models with Attribution Scores: An
Analysis in Low-Resource Settings [32.03184402316848]
我々は,素早いモデルから抽出した帰属スコアの妥当性と忠実度を分析した。
プロンプトパラダイムを用いることで、低リソース環境下でモデルを微調整するよりも、より妥当な説明が得られます。
論文 参考訳(メタデータ) (2024-03-08T14:14:37Z) - Learning from models beyond fine-tuning [78.20895343699658]
Learn From Model (LFM) は、モデルインターフェースに基づいた基礎モデル(FM)の研究、修正、設計に焦点を当てている。
LFM技術の研究は、モデルチューニング、モデル蒸留、モデル再利用、メタラーニング、モデル編集の5つの分野に大別できる。
本稿では, LFM の観点から, FM に基づく現在の手法を概観する。
論文 参考訳(メタデータ) (2023-10-12T10:20:36Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - On the Generalization and Adaption Performance of Causal Models [99.64022680811281]
異なる因果発見は、データ生成プロセスを一連のモジュールに分解するために提案されている。
このようなモジュラニューラル因果モデルの一般化と適応性能について検討する。
我々の分析では、モジュラーニューラル因果モデルが、低データレギュレーションにおけるゼロおよび少数ショットの適応において、他のモデルよりも優れていることを示している。
論文 参考訳(メタデータ) (2022-06-09T17:12:32Z) - Model-Based Counterfactual Synthesizer for Interpretation [40.01787107375103]
機械学習モデルを解釈するためのモデルベース対実合成器(MCS)フレームワークを提案する。
まずモデルに基づく逆ファクト過程を分析し、条件付き生成逆数ネット(CGAN)を用いてベースシンセサイザーを構築する。
それらの希少なクエリに対する反ファクト宇宙をよりよく近似するために,MCSフレームワークのトレーニングを行うために,傘サンプリング手法を新たに採用した。
論文 参考訳(メタデータ) (2021-06-16T17:09:57Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Prototype Guided Federated Learning of Visual Feature Representations [15.021124010665194]
Federated Learning(FL)は、分散モデルトレーニングを可能にするフレームワークである。
既存の手法は、内部表現を無視したモデルを集約する。
我々は、分散データ上で学習した表現のマージンを用いてクライアントの偏差を計算するFedProtoを紹介する。
論文 参考訳(メタデータ) (2021-05-19T08:29:12Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。