論文の概要: Towards Neural Scaling Laws for Time Series Foundation Models
- arxiv url: http://arxiv.org/abs/2410.12360v1
- Date: Wed, 16 Oct 2024 08:23:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:43:42.923304
- Title: Towards Neural Scaling Laws for Time Series Foundation Models
- Title(参考訳): 時系列基礎モデルのニューラルスケーリング法則に向けて
- Authors: Qingren Yao, Chao-Han Huck Yang, Renhe Jiang, Yuxuan Liang, Ming Jin, Shirui Pan,
- Abstract要約: 我々は、エンコーダオンリーとデコーダオンリーのトランスフォーマーの2つの一般的なTSFMアーキテクチャについて検討し、IDおよびOODデータのスケーリング挙動について検討する。
実験の結果,TSFMのログライクな損失はOODとID設定の両方で同様のスケーリング挙動を示すことがわかった。
モデル機能を強化した大規模TSFMの設計とスケーリングのための実用的なガイドラインを提供する。
- 参考スコア(独自算出の注目度): 63.5211738245487
- License:
- Abstract: Scaling laws offer valuable insights into the design of time series foundation models (TSFMs). However, previous research has largely focused on the scaling laws of TSFMs for in-distribution (ID) data, leaving their out-of-distribution (OOD) scaling behavior and the influence of model architectures less explored. In this work, we examine two common TSFM architectures, encoder-only and decoder-only Transformers, and investigate their scaling behavior on both ID and OOD data. These models are trained and evaluated across varying parameter counts, compute budgets, and dataset sizes. Our experiments reveal that the log-likelihood loss of TSFMs exhibits similar scaling behavior in both OOD and ID settings. We further compare the scaling properties across different architectures, incorporating two state-of-the-art TSFMs as case studies, showing that model architecture plays a significant role in scaling. The encoder-only Transformers demonstrate better scalability than the decoder-only Transformers, while the architectural enhancements in the two advanced TSFMs primarily improve ID performance but reduce OOD scalability. While scaling up TSFMs is expected to drive performance breakthroughs, the lack of a comprehensive understanding of TSFM scaling laws has hindered the development of a robust framework to guide model scaling. We fill this gap in this work by synthesizing our findings and providing practical guidelines for designing and scaling larger TSFMs with enhanced model capabilities.
- Abstract(参考訳): スケーリング法則は、時系列基礎モデル(TSFM)の設計に関する貴重な洞察を提供する。
しかし、従来の研究では、TSFMのIDデータへのスケーリング法則に主に焦点を当てており、そのアウト・オブ・ディストリビューション(OOD)スケーリングの挙動とモデルアーキテクチャの影響は調査されていない。
本研究では,エンコーダのみのアーキテクチャとデコーダのみのトランスフォーマという2つの一般的なTSFMアーキテクチャについて検討し,IDデータとOODデータのスケーリング挙動について検討する。
これらのモデルは、さまざまなパラメータカウント、計算予算、データセットサイズでトレーニングされ、評価される。
実験の結果,TSFMのログライクな損失はOODとID設定の両方で同様のスケーリング挙動を示すことがわかった。
さらに、異なるアーキテクチャ間のスケーリング特性を比較し、ケーススタディとして2つの最先端TSFMを組み込むことにより、モデルアーキテクチャがスケーリングにおいて重要な役割を担っていることを示す。
エンコーダのみのトランスフォーマーはデコーダのみのトランスフォーマーよりもスケーラビリティが向上し、2つの高度なTSFMのアーキテクチャ拡張は主にID性能を改善するが、OODのスケーラビリティは低下する。
TSFMのスケールアップはパフォーマンスのブレークスルーをもたらすことが期待されているが、TSFMのスケーリング法則に関する包括的な理解の欠如により、モデルスケーリングをガイドする堅牢なフレームワークの開発が妨げられている。
本研究におけるこのギャップを,我々の知見を合成し,モデル機能を強化した大規模TSFMの設計とスケーリングのための実践的ガイドラインを提供することで埋める。
関連論文リスト
- Efficient and Effective Adaptation of Multimodal Foundation Models in Sequential Recommendation [43.524099888917384]
IISAN は対称的 MFM と同一のテキストと画像エンコーダに限られており、最先端の大規模言語モデルの使用を妨げていた。
We developed IISAN-Versa, a simpletile plug-and-play architecture with symmetrical and asymmetrical MFMs。
IISAN-Versaは、大文字エンコーダを効果的に適用し、大文字エンコーダが通常より良く機能するスケーリング効果を更に同定する。
論文 参考訳(メタデータ) (2024-11-05T10:53:25Z) - Research on Personalized Compression Algorithm for Pre-trained Models Based on Homomorphic Entropy Increase [2.6513322539118582]
我々は、現在のAI分野における2つの重要な技術の課題と進化を探求する:ビジョントランスフォーマーモデルと大規模言語モデル(LLM)。
Vision Transformerは、イメージを小さな断片に分割することで、グローバルな情報をキャプチャするが、その高い参照数とモバイル機器へのオーバヘッド制限の配置を計算する。
LLMは自然言語処理に革命をもたらしたが、デプロイメントの課題にも直面している。
論文 参考訳(メタデータ) (2024-08-16T11:56:49Z) - Zero-Shot Embeddings Inform Learning and Forgetting with Vision-Language Encoders [6.7181844004432385]
IMM(Inter-Intra Modal Measure)は、微調整によるパフォーマンス変化の強力な予測器として機能する。
IIMMスコアの高いタスクの微調整はドメイン内のパフォーマンス向上をもたらすが、ドメイン外のパフォーマンス低下も引き起こす。
ターゲットデータの1つのフォワードパスだけで、実践者は、この重要な洞察を利用して、モデルが微調整後の改善を期待できる程度を評価することができる。
論文 参考訳(メタデータ) (2024-07-22T15:35:09Z) - Towards smaller, faster decoder-only transformers: Architectural variants and their implications [0.0]
本稿では,デコーダのみのトランスアーキテクチャであるParallelGPT,LinearGPT,ConvGPTの3つの改良点を紹介する。
これらのバリエーションは、言語生成における従来のアーキテクチャと同等のパフォーマンスを示すが、モデルのサイズを縮小し、より高速なトレーニングプロセスの恩恵を受ける。
論文 参考訳(メタデータ) (2024-04-22T06:19:46Z) - Fine-Tuning Enhances Existing Mechanisms: A Case Study on Entity
Tracking [53.66999416757543]
本研究では,微調整が言語モデルに実装された内部メカニズムに与える影響について検討する。
微調整はモデルの機械的操作を変えるのではなく、強化する。
論文 参考訳(メタデータ) (2024-02-22T18:59:24Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - Enhanced LFTSformer: A Novel Long-Term Financial Time Series Prediction Model Using Advanced Feature Engineering and the DS Encoder Informer Architecture [0.8532753451809455]
本研究では,拡張LFTSformerと呼ばれる長期金融時系列の予測モデルを提案する。
このモデルは、いくつかの重要なイノベーションを通じて、自分自身を区別する。
さまざまなベンチマークストックマーケットデータセットに関するシステマティックな実験は、強化LFTSformerが従来の機械学習モデルより優れていることを示している。
論文 参考訳(メタデータ) (2023-10-03T08:37:21Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z) - Data Scaling Laws in NMT: The Effect of Noise and Architecture [59.767899982937756]
ニューラルネットワーク翻訳(NMT)のデータスケーリング特性に及ぼすアーキテクチャとトレーニングデータ品質の影響について検討する。
データスケーリング指数は最小限の影響を受けており、より多くのデータを追加することで、極端に悪いアーキテクチャやトレーニングデータの補償が可能になることを示唆しています。
論文 参考訳(メタデータ) (2022-02-04T06:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。