論文の概要: VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters
- arxiv url: http://arxiv.org/abs/2408.17253v1
- Date: Fri, 30 Aug 2024 12:51:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 15:28:41.213388
- Title: VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters
- Title(参考訳): VisionTS:ビジュアル・マズード・オートエンコーダーは無料のゼロショット・タイム・シリーズ
- Authors: Mouxiang Chen, Lefei Shen, Zhuo Li, Xiaoyun Joy Wang, Jianling Sun, Chenghao Liu,
- Abstract要約: 我々は、リッチで高品質な自然画像からTSF基盤モデルを構築するための新しい道を構築する。
ImageNetデータセット上で事前学習した視覚マスク付きオートエンコーダ(MAE)によって処理される画像再構成タスクとして、TSFタスクを再構成する。
驚くべきことに、時系列領域にさらなる適応がなければ、提案されたVisionTSはより優れたゼロショット予測性能を達成することができた。
- 参考スコア(独自算出の注目度): 27.80286758290421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models have emerged as a promising approach in time series forecasting (TSF). Existing approaches either fine-tune large language models (LLMs) or build large-scale time-series datasets to develop TSF foundation models. However, these methods face challenges due to the severe cross-domain gap or in-domain heterogeneity. In this paper, we explore a new road to building a TSF foundation model from rich and high-quality natural images, based on the intrinsic similarities between images and time series. To bridge the gap between the two domains, we reformulate the TSF task as an image reconstruction task, which is further processed by a visual masked autoencoder (MAE) self-supervised pre-trained on the ImageNet dataset. Surprisingly, without further adaptation in the time-series domain, the proposed VisionTS could achieve superior zero-shot forecasting performance compared to existing TSF foundation models. With minimal fine-tuning, VisionTS could further improve the forecasting and achieve state-of-the-art performance in most cases. These findings suggest that visual models could be a free lunch for TSF and highlight the potential for future cross-domain research between computer vision and TSF. Our code is publicly available at https://github.com/Keytoyze/VisionTS.
- Abstract(参考訳): ファウンデーションモデルは時系列予測(TSF)において有望なアプローチとして現れている。
既存のアプローチでは、微調整された大規模言語モデル(LLM)か、大規模な時系列データセットを構築して、TSF基盤モデルを開発する。
しかし、これらの手法はドメイン間ギャップやドメイン内不均一性のために困難に直面している。
本稿では,リッチで高品質な自然画像からTSFファンデーションモデルを構築するための新しい手法を,画像と時系列の固有の類似性に基づいて検討する。
この2つの領域間のギャップを埋めるために、画像再構成タスクとしてTSFタスクを再構成し、ImageNetデータセット上で事前訓練された視覚マスク付きオートエンコーダ(MAE)によってさらに処理する。
驚くべきことに、時系列領域にさらなる適応がなければ、提案されたVisionTSは既存のTSFファンデーションモデルよりも優れたゼロショット予測性能を達成できる。
最小限の微調整で、VisionTSは予測をさらに改善し、ほとんどのケースで最先端のパフォーマンスを達成することができる。
これらの結果は、視覚モデルがTSFの無料ランチになり、コンピュータビジョンとTSFの間のクロスドメイン研究の可能性を強調していることを示唆している。
私たちのコードはhttps://github.com/Keytoyze/VisionTS.comで公開されています。
関連論文リスト
- FoundTS: Comprehensive and Unified Benchmarking of Foundation Models for Time Series Forecasting [44.33565276128137]
時系列予測(TSF)は、金融、気象サービス、エネルギー管理など、多くの分野で重要な機能である。
ファンデーションモデルは、新しいまたは見えないデータで有望な推論機能を示す。
そこで我々は,そのようなモデルの徹底的かつ公平な評価と比較を可能にする新しいベンチマーク FoundTS を提案する。
論文 参考訳(メタデータ) (2024-10-15T17:23:49Z) - ViTime: A Visual Intelligence-Based Foundation Model for Time Series Forecasting [38.87384888881476]
本稿では,時系列予測のためのビジュアルインテリジェンスに基づく新しい基礎モデルであるViTimeを提案する。
これまで目にしなかったさまざまな予測データセットの実験は、ViTimeが最先端のゼロショットパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2024-07-10T02:11:01Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Unified Training of Universal Time Series Forecasting Transformers [104.56318980466742]
マスク型ユニバーサル時系列予測変換器(モイライ)について述べる。
Moiraiは、新たに導入された大規模オープンタイムシリーズアーカイブ(LOTSA)で訓練されており、9つのドメインで27億以上の観測が行われた。
Moiraiは、フルショットモデルと比較してゼロショットの予測器として、競争力や優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-02-04T20:00:45Z) - Timer: Generative Pre-trained Transformers Are Large Time Series Models [83.03091523806668]
本稿では,大規模時系列モデル(LTSM)の早期開発を目的とした。
事前トレーニング中に、最大10億のタイムポイントを持つ大規模なデータセットをキュレートします。
多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。
論文 参考訳(メタデータ) (2024-02-04T06:55:55Z) - Lag-Llama: Towards Foundation Models for Probabilistic Time Series
Forecasting [54.04430089029033]
本稿では,デコーダのみの変換器アーキテクチャに基づく時系列予測のための汎用基礎モデルであるLag-Llamaを提案する。
Lag-Llamaは、複数のドメインからの多様な時系列データの大規模なコーパスで事前訓練され、強力なゼロショット一般化能力を示す。
このような未確認データセットの比較的小さな部分で微調整を行うと、Lag-Llamaは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-12T12:29:32Z) - Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and
Reconstruction [77.69363640021503]
3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。
本稿では,様々な物体の多視点画像から,ニューラルラディアンス場(NeRF)の一般化可能な事前学習を行うために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
論文 参考訳(メタデータ) (2023-04-13T17:59:01Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - FrAug: Frequency Domain Augmentation for Time Series Forecasting [6.508992154478217]
データ拡張(DA)は、ディープラーニングのためのトレーニングデータサイズを拡張するデファクトソリューションになっています。
本稿では、予測における拡張データ-ラベルペアのセマンティック一貫性を保証するための、単純で効果的な周波数領域拡張手法を提案する。
その結果,ほとんどの場合,FrAugはTSFモデルの予測精度を高めることができることがわかった。
論文 参考訳(メタデータ) (2023-02-18T11:25:42Z) - Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。
擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。
これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文 参考訳(メタデータ) (2022-10-25T16:22:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。