論文の概要: Understanding Transformers for Time Series: Rank Structure, Flow-of-ranks, and Compressibility
- arxiv url: http://arxiv.org/abs/2510.03358v1
- Date: Thu, 02 Oct 2025 23:56:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.927419
- Title: Understanding Transformers for Time Series: Rank Structure, Flow-of-ranks, and Compressibility
- Title(参考訳): 時系列変換器の理解:ランク構造、ランクフロー、圧縮性
- Authors: Annan Yu, Danielle C. Maddix, Boran Han, Xiyuan Zhang, Abdul Fatir Ansari, Oleksandr Shchur, Christos Faloutsos, Andrew Gordon Wilson, Michael W. Mahoney, Yuyang Wang,
- Abstract要約: 我々は、ランク構造のレンズを通してトランスフォーマーを解析する。
時系列埋め込みは急激な減衰特異値スペクトルを示すことを示す。
関連する$Q/K/V$プロジェクションが正確な低ランク近似を持つことを示す。
- 参考スコア(独自算出の注目度): 90.894232610821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are widely used across data modalities, and yet the principles distilled from text models often transfer imperfectly to models trained to other modalities. In this paper, we analyze Transformers through the lens of rank structure. Our focus is on the time series setting, where the structural properties of the data differ remarkably from those of text or vision. We show that time-series embeddings, unlike text or vision, exhibit sharply decaying singular value spectra: small patch sizes and smooth continuous mappings concentrate the data into low-rank subspaces. From this, we prove that the associated $Q/K/V$ projections admit accurate low-rank approximations, and that attention layers become compressible in proportion to the decay of the embedding spectrum. We introduce the concept of flow-of-ranks, a phenomenon by which nonlinear mixing across depth inflates the rank, explaining why early layers are most amenable to compression and why ranks grow with depth. Guided by these theoretical and empirical results, we use these insights to compress Chronos, a large time series foundation model, achieving a reduction of $65\%$ in inference time and $81\%$ in memory, without loss of accuracy. Our findings provide principled guidance for allocating width, depth, and heads in time series foundation models, and for exploiting their inherent compressibility.
- Abstract(参考訳): トランスフォーマーはデータモダリティで広く使われているが、テキストモデルから抽出された原理は、他のモダリティに訓練されたモデルに不完全な転送を行うことが多い。
本稿では、ランク構造のレンズを通してトランスフォーマーを解析する。
我々の焦点は時系列の設定であり、データの構造的特性はテキストや視覚と著しく異なる。
テキストや視覚とは異なり、時系列の埋め込みは、小さなパッチサイズと滑らかな連続写像によって、急激な減衰する特異値スペクトルを示す。
このことから、関連する$Q/K/V$プロジェクションが正確な低ランク近似を許容し、埋め込みスペクトルの減衰に比例してアテンション層が圧縮可能であることを証明した。
この現象は,なぜ初期層が最も圧縮しやすいのか,なぜ層が深度で成長するのかを説明するものである。
これらの理論的および実証的な結果に導かれ、これらの洞察を用いてChronosを圧縮し、大規模な時系列基礎モデルであり、推論時間で65 %$、メモリで811 %$の削減を実現し、精度を損なうことなく達成する。
本研究は, 時系列基礎モデルにおける幅, 深さ, 頭部の配置, 圧縮性の向上に関する原則的ガイダンスを提供する。
関連論文リスト
- Tracing the Representation Geometry of Language Models from Pretraining to Post-training [22.18942718274405]
本研究では,事前学習と後学習にまたがる学習表現の幾何学をスペクトル的に検討する。
自己回帰事前学習中に3つの幾何位相の一貫した非単調列が発見された。
SFTとDPOは、特定の命令データや優先データを統合するために「エントロピー探索」ダイナミクスを駆動します。
論文 参考訳(メタデータ) (2025-09-27T00:46:29Z) - A Two-Phase Perspective on Deep Learning Dynamics [0.0]
深層ニューラルネットワークの学習は、高速な曲線フィッティングフェーズと、低速な圧縮または粗粒化フェーズの2段階に進むことを提案する。
私たちは、関連する時間スケールが2つのかなり異なる設定で一致していることを実証的に示します。
第2フェーズは、標準的なトレーニングアルゴリズムによって積極的に最適化されておらず、不要に長期化される可能性がある、と我々は主張する。
論文 参考訳(メタデータ) (2025-04-17T06:57:37Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Diffusion Transformer Captures Spatial-Temporal Dependencies: A Theory for Gaussian Process Data [39.41800375686212]
ビデオ生成のためのSoraのバックボーンであるDiffusion Transformerは、拡散モデルのキャパシティをうまく拡張する。
空間的・時間的依存関係を捉えるための拡散変圧器のブリッジ化に向けた第一歩を踏み出す。
空間的時間的依存が学習効率にどのように影響するかを強調した。
論文 参考訳(メタデータ) (2024-07-23T02:42:43Z) - Super Consistency of Neural Network Landscapes and Learning Rate Transfer [72.54450821671624]
我々は、失われたヘッセンのレンズを通して風景を研究する。
我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。
ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - A Differential Attention Fusion Model Based on Transformer for Time
Series Forecasting [4.666618110838523]
時系列予測は、機器ライフサイクル予測、天気予報、交通流予測などの分野で広く利用されている。
一部の学者は、この強力な並列トレーニング能力のために、Transformerを時系列予測に適用しようと試みている。
既存のTransformerメソッドは、予測において決定的な役割を果たす小さな時間セグメントに十分な注意を払わない。
論文 参考訳(メタデータ) (2022-02-23T10:33:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。