論文の概要: The Few Govern the Many:Unveiling Few-Layer Dominance for Time Series Models
- arxiv url: http://arxiv.org/abs/2511.07237v1
- Date: Mon, 10 Nov 2025 15:53:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.345257
- Title: The Few Govern the Many:Unveiling Few-Layer Dominance for Time Series Models
- Title(参考訳): 数多いのは:時系列モデルにおける数層支配の展開
- Authors: Xin Qiu, Junlong Tong, Yirong Sun, Yunpu Ma, Xiaoyu Shen,
- Abstract要約: 我々は,より大きなモデルではより優れた性能が得られない,ファズリング現象を観察する。
本稿では,これらの支配層のみを自動的に識別し,保持する実用的な手法を提案する。
- 参考スコア(独自算出の注目度): 14.479996384788445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale models are at the forefront of time series (TS) forecasting, dominated by two paradigms: fine-tuning text-based Large Language Models (LLM4TS) and training Time Series Foundation Models (TSFMs) from scratch. Both approaches share a foundational assumption that scaling up model capacity and data volume leads to improved performance. However, we observe a \textit{\textbf{scaling paradox}} in TS models, revealing a puzzling phenomenon that larger models do \emph{NOT} achieve better performance. Through extensive experiments on two model families across four scales (100M to 1.7B parameters) and diverse data (up to 6B observations), we rigorously confirm that the scaling paradox is a pervasive issue. We then diagnose its root cause by analyzing internal representations, identifying a phenomenon we call \textit{few-layer dominance}: only a small subset of layers are functionally important, while the majority are redundant, under-utilized, and can even distract training. Based on this discovery, we propose a practical method to automatically identify and retain only these dominant layers. In our models, retaining only 21\% of the parameters achieves up to a 12\% accuracy improvement and a 2.7$\times$ inference speedup. We validate the universality of our method on 8 prominent SOTA models (LLM4TS and TSFMs, 90M to 6B), showing that retaining less than 30\% of layers achieves comparable or superior accuracy in over 95\% of tasks.
- Abstract(参考訳): 大規模モデルは時系列予測(TS)の最前線にあり、微調整テキストベース大規模言語モデル(LLM4TS)と時系列基礎モデル(TSFM)の2つのパラダイムに支配されている。
どちらのアプローチも、モデルキャパシティとデータボリュームのスケールアップによってパフォーマンスが向上するという基本的な仮定を共有している。
しかし,TS モデルでは \textit{\textbf{scaling paradox}} が観測され,より大きなモデルでは \emph{NOT} がより優れた性能を発揮するというファズリング現象が明らかとなった。
4つのスケール(100Mから1.7Bのパラメータ)と多種多様なデータ(最大6Bの観察)にわたる2つのモデルファミリーに関する広範な実験を通じて、スケーリングパラドックスが広範に問題であることを確認した。
次に、内部表現を分析して根本原因を診断し、それを‘textit{few-layer dominance}’と呼ぶ現象を特定する。
この発見に基づいて,これらの支配層のみを自動的に識別し,保持する実用的な手法を提案する。
我々のモデルでは、パラメータの21\%しか保持せず、最大12\%の精度向上と2.7$\times$推論高速化を実現している。
8種類のSOTAモデル (LLM4TS, TSFMs, 90M~6B) において本手法の普遍性を検証し, 30 %未満の層を保持しても95 %以上のタスクにおいて同等あるいは優れた精度が得られることを示した。
関連論文リスト
- LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence [61.46575527504109]
LimiX-16MとLimiX-2Mは、構造化されたデータを変数と欠落に対する共同分布として扱う。
サンプルサイズ,特徴次元,クラス数,カテゴリ間特徴比,欠落度,サンプル-特徴比の広い11種類の大規模構造化データベンチマークを対象としたLimiXモデルの評価を行った。
論文 参考訳(メタデータ) (2025-09-03T17:39:08Z) - Intention-Conditioned Flow Occupancy Models [80.42634994902858]
大規模な事前学習は、今日の機械学習研究のやり方を根本的に変えた。
同じフレームワークを強化学習に適用することは、RLの中核的な課題に対処するための魅力的な方法を提供するので、魅力的です。
生成AIの最近の進歩は、高度に複雑な分布をモデリングするための新しいツールを提供している。
論文 参考訳(メタデータ) (2025-06-10T15:27:46Z) - Output Scaling: YingLong-Delayed Chain of Thought in a Large Pretrained Time Series Forecasting Model [55.25659103706409]
このフレームワークは,設計した基盤モデルであるYingLongの最先端性能を実現する。
YingLongは、マスク付きトークンリカバリによってトレーニングされた非因果的双方向アテンションエンコーダのみのトランスフォーマーである。
我々は、6Mから3Mパラメータの4つの基礎モデルをリリースし、ゼロショットタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2025-05-20T14:31:06Z) - TSPulse: Dual Space Tiny Pre-Trained Models for Rapid Time-Series Analysis [12.034816114258803]
TSPulseは、1Mパラメータしか持たない超コンパクトな時系列事前訓練モデルである。
分類、異常検出、インプット、検索タスクで強く機能する。
結果は100Mパラメータ(既存のSOTAモデルより10-100倍小さい)で達成される。
論文 参考訳(メタデータ) (2025-05-19T12:18:53Z) - Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivariate Time Series [11.635608108358575]
本稿では,効率的な転送学習機能を備えたコンパクトモデルであるTiny Time Mixers (TTM)について紹介する。
TTMには、適応パッチ、多様な解像度サンプリング、およびさまざまなデータセット解像度の事前トレーニングを処理するための解像度プレフィックスチューニングなどのイノベーションが含まれている。
既存のベンチマークでは0/few-shot予測(4-40%)を上回り、計算要求を大幅に削減した。
論文 参考訳(メタデータ) (2024-01-08T15:21:21Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。