論文の概要: SSDA: Bridging Spectral and Structural Gaps via Dual Adaptation for Vision-Based Time Series Forecasting
- arxiv url: http://arxiv.org/abs/2605.12550v1
- Date: Sun, 10 May 2026 07:17:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.569921
- Title: SSDA: Bridging Spectral and Structural Gaps via Dual Adaptation for Vision-Based Time Series Forecasting
- Title(参考訳): SSDA:ビジョンベース時系列予測のためのデュアル適応によるスペクトルと構造ギャップのブリッジ化
- Authors: Mingrui Zhang, Hanchen Yang, Wengen Li, Xudong Jiang, Yichao Zhang, Jihong Guan, Shuigeng Zhou,
- Abstract要約: レンダリングされた時系列画像は、LVMが認識するために事前訓練されている自然な画像よりも、非常に浅いパワースペクトルを示すことを示す。
時系列予測のためのLVMのポテンシャルを解放するために、スペクトル的かつ構造的に適応するデュアルブランチネットワークであるSSDAを提案する。
- 参考スコア(独自算出の注目度): 39.55585786455421
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision models (LVMs) have recently proven to be surprisingly effective time series forecasters, simply by rendering temporal data as images. This success, how ever, rests on a largely unexamined premise: the rendered time series images are sufficiently close to natural images for knowledge in pre-trained models to transfer effectively. We argue that two gaps still remain, i.e., spectral and structural gaps, fundamentally limiting the potential of LVMs for time series forecasting. Spectrally, we systematically reveal that rendered time series images exhibit a markedly shallower power spectrum than the natural images LVMs are pre-trained to recognize. Structurally, reshaping 1D temporal sequences into 2D grids fabricates spurious spatial adjacencies while severing genuine temporal continuities, misleading the spatial inductive biases of pre-trained LVMs. To bridge these gaps, we propose SSDA, a dual-branch network that spectrally and structurally adapts to unlock the full potential of LVMs for time series forecasting. At the data level, a Spectral Magnitude Aligner (SMA) applies 2D FFT to selectively enhance the magnitude spectrum toward natural-image statistics while preserving phase. At the model level, a Structural-Guided Low-Rank Adaptation (SG-LoRA) injects position-aware temporal encodings into patch embeddings and adapts at tention via low-rank updates. The two branches are further adaptively fused to produce the final forecast. Extensive experiments on seven real-world benchmarks demonstrate that SSDA consistently outperforms strong LVM- and LLM-based baselines under both full-shot and few-shot settings. Code is publicly available at https://anonymous.4open.science/r/SSDA-8C5B.
- Abstract(参考訳): 大規模ビジョンモデル(LVM)は、単に時間データを画像としてレンダリングすることで、驚くほど効果的な時系列予測器であることが最近証明された。
レンダリングされた時系列画像は、訓練済みのモデルにおいて、効果的に転送するための知識を得るために、自然な画像に十分近い。
我々は、2つのギャップ、すなわちスペクトルと構造的ギャップが残っており、時系列予測のためのLVMのポテンシャルを根本的に制限していると主張している。
分光学的には、レンダリングされた時系列画像は、LVMが認識するために事前訓練されている自然な画像よりも、非常に浅いパワースペクトルを示す。
構造的に、1次元時間列を2次元グリッドに変換することで、真の時間的連続性を保ちながら、空間的隣接性を生じさせ、事前学習されたLVMの空間的帰納バイアスを誤解させる。
これらのギャップを埋めるために、時系列予測のためのLVMのポテンシャルを解放するためにスペクトル的かつ構造的に適応するデュアルブランチネットワークであるSSDAを提案する。
データレベルでは、SMA(Spectral Magnitude Aligner)が2D FFTを適用して、位相を保ちながら自然画像統計に対する大きさスペクトルを選択的に拡張する。
モデルレベルでは、Structure-Guided Low-Rank Adaptation (SG-LoRA)は、位置認識の時間エンコーディングをパッチ埋め込みに注入し、低ランク更新を通じて保持時に適応する。
2つの枝はさらに適応的に融合して最終予測を生成する。
7つの実世界のベンチマークに関する大規模な実験では、SSDAはフルショットと少数ショットの両方で強力なLVMとLLMベースのベースラインを一貫して上回っている。
コードはhttps://anonymous.4open.science/r/SSDA-8C5Bで公開されている。
関連論文リスト
- Forecasting as Rendering: A 2D Gaussian Splatting Framework for Time Series Forecasting [79.37674445572462]
時系列予測(TSF)は、周期内変動と周期間トレンドの複雑な絡み合いのため、依然として困難な問題である。
形状変化テンソルを静止画像として扱うと、トポロジカルミスマッチが発生する。
均一な固定サイズの表現に依存することは、モデリング能力を非効率に割り当てる。
TimeGSは、予測パラダイムをレグレッションから2D生成レンダリングに根本的にシフトする、新しいフレームワークである。
論文 参考訳(メタデータ) (2026-02-10T14:13:36Z) - ViTs: Teaching Machines to See Time Series Anomalies Like Human Experts [21.498848897981173]
時系列異常検出モデルでは,「シナリオをまたいで1回ずつ推測する」ことが根本的な課題である。
時系列曲線を視覚表現に変換するVLM(Vision-Language Model)ベースのフレームワークであるViTを提案する。
論文 参考訳(メタデータ) (2025-10-06T11:24:53Z) - Time Series Representations for Classification Lie Hidden in Pretrained Vision Transformers [49.07665715422702]
時系列を画像に変換するフレームワークであるTime Vision Transformer (TiViT) を提案する。
標準時系列分類ベンチマークにおいて, TiViT が最先端の性能を達成することを示す。
本研究は,非視覚領域における視覚表現の再利用に向けた新たな方向を明らかにするものである。
論文 参考訳(メタデータ) (2025-06-10T09:54:51Z) - From Images to Signals: Are Large Vision Models Useful for Time Series Analysis? [62.58235852194057]
トランスフォーマーベースのモデルは、時系列研究において注目を集めている。
分野がマルチモダリティに向かって進むにつれ、LVM(Large Vision Models)が有望な方向として現れつつある。
論文 参考訳(メタデータ) (2025-05-29T22:05:28Z) - SpectralMamba: Efficient Mamba for Hyperspectral Image Classification [39.18999103115206]
リカレントニューラルネットワークとトランスフォーマーは、ハイパースペクトル(HS)イメージングにおけるほとんどの応用を支配している。
我々は、HS画像分類のための効率的なディープラーニングフレームワークを組み込んだ新しい状態空間モデルであるSpectralMambaを提案する。
SpectralMambaは、パフォーマンスと効率の両面から、驚くほど有望な勝利を生み出している。
論文 参考訳(メタデータ) (2024-04-12T14:12:03Z) - Multi-Patch Prediction: Adapting LLMs for Time Series Representation
Learning [22.28251586213348]
aLLM4TSは、時系列表現学習にLarge Language Models(LLM)を適用する革新的なフレームワークである。
われわれのフレームワークの特筆すべき要素はパッチワイドデコーディング層である。
論文 参考訳(メタデータ) (2024-02-07T13:51:26Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。