論文の概要: VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters
- arxiv url: http://arxiv.org/abs/2408.17253v2
- Date: Wed, 02 Oct 2024 17:21:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:18:39.400228
- Title: VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters
- Title(参考訳): VisionTS:ビジュアル・マズード・オートエンコーダーは無料のゼロショット・タイム・シリーズ
- Authors: Mouxiang Chen, Lefei Shen, Zhuo Li, Xiaoyun Joy Wang, Jianling Sun, Chenghao Liu,
- Abstract要約: 本稿では,リッチで高品質な自然画像からTSFファンデーションモデルを構築するための新しい道を探る。
画像再構成タスクとしてTSFを再構成することにより、画像事前学習とTSF下流タスクのギャップを埋める。
提案されたVisionTSは、既存のTSFファンデーションモデルよりも優れたゼロショット予測性能を実現することができる。
- 参考スコア(独自算出の注目度): 27.80286758290421
- License:
- Abstract: Foundation models have emerged as a promising approach in time series forecasting (TSF). Existing approaches either repurpose large language models (LLMs) or build large-scale time series datasets to develop TSF foundation models for universal forecasting. However, these methods face challenges due to the severe cross-domain gap or in-domain heterogeneity. This paper explores a new road to building a TSF foundation model from rich, high-quality natural images. Our key insight is that a visual masked autoencoder, pre-trained on the ImageNet dataset, can naturally be a numeric series forecaster. By reformulating TSF as an image reconstruction task, we bridge the gap between image pre-training and TSF downstream tasks. Surprisingly, without further adaptation in the time-series domain, the proposed VisionTS could achieve superior zero-shot forecasting performance compared to existing TSF foundation models. With fine-tuning for one epoch, VisionTS could further improve the forecasting and achieve state-of-the-art performance in most cases. Extensive experiments reveal intrinsic similarities between images and real-world time series, suggesting visual models may offer a ``free lunch'' for TSF and highlight the potential for future cross-modality research. Our code is publicly available at https://github.com/Keytoyze/VisionTS.
- Abstract(参考訳): ファウンデーションモデルは時系列予測(TSF)において有望なアプローチとして現れている。
既存のアプローチでは、大きな言語モデル(LLM)を再利用するか、大規模な時系列データセットを構築して、普遍的な予測のためのTSF基盤モデルを開発する。
しかし、これらの手法はドメイン間ギャップやドメイン内不均一性のために困難に直面している。
本稿では,リッチで高品質な自然画像からTSFファンデーションモデルを構築するための新しい道を探る。
私たちの重要な洞察は、ImageNetデータセットで事前トレーニングされた視覚マスク付きオートエンコーダが、自然に数値列予測器になり得るということです。
画像再構成タスクとしてTSFを再構成することにより、画像事前学習とTSF下流タスクのギャップを埋める。
驚くべきことに、時系列領域にさらなる適応がなければ、提案されたVisionTSは既存のTSFファンデーションモデルよりも優れたゼロショット予測性能を達成できる。
一時期の微調整によって、VisionTSは予測をさらに改善し、ほとんどのケースで最先端のパフォーマンスを達成することができる。
広範にわたる実験は、画像と実世界の時系列の固有の類似性を明らかにし、視覚モデルがTSFに「フリーランチ」を提供し、将来のモダリティ研究の可能性を強調することを示唆している。
私たちのコードはhttps://github.com/Keytoyze/VisionTS.comで公開されています。
関連論文リスト
- ViTime: A Visual Intelligence-Based Foundation Model for Time Series Forecasting [38.87384888881476]
本稿では,時系列予測のためのビジュアルインテリジェンスに基づく新しい基礎モデルであるViTimeを提案する。
これまで目にしなかったさまざまな予測データセットの実験は、ViTimeが最先端のゼロショットパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2024-07-10T02:11:01Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - DiffPoint: Single and Multi-view Point Cloud Reconstruction with ViT
Based Diffusion Model [10.253402444122084]
我々は,ポイントクラウド再構築の課題に対して,ViTと拡散モデルを組み合わせたDiffPointという巧妙で強力なアーキテクチャを提案する。
DiffPointを単視点と多視点の両方の再構成タスクで評価し、最先端の結果を得る。
論文 参考訳(メタデータ) (2024-02-17T10:18:40Z) - Supervised Fine-tuning in turn Improves Visual Foundation Models [74.1760864718129]
2段階のViSFT (Vision SFT) は、視覚基盤モデルの詳細な知識を解き放つために提案される。
4.4B以上のパラメータを持つビジョントランスフォーマーは、様々な外部ベンチマークで改善されている。
論文 参考訳(メタデータ) (2024-01-18T18:58:54Z) - Multi-View Unsupervised Image Generation with Cross Attention Guidance [23.07929124170851]
本稿では,単一カテゴリデータセット上でのポーズ条件拡散モデルの教師なし学習のための新しいパイプラインを提案する。
特定のオブジェクト部分の可視性と位置を比較することで、データセットをクラスタリングすることで、オブジェクトのポーズを識別する。
我々のモデルであるMIRAGEは、実画像における新しいビュー合成における先行研究を超越している。
論文 参考訳(メタデータ) (2023-12-07T14:55:13Z) - Lag-Llama: Towards Foundation Models for Probabilistic Time Series
Forecasting [54.04430089029033]
本稿では,デコーダのみの変換器アーキテクチャに基づく時系列予測のための汎用基礎モデルであるLag-Llamaを提案する。
Lag-Llamaは、複数のドメインからの多様な時系列データの大規模なコーパスで事前訓練され、強力なゼロショット一般化能力を示す。
このような未確認データセットの比較的小さな部分で微調整を行うと、Lag-Llamaは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-12T12:29:32Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - STDepthFormer: Predicting Spatio-temporal Depth from Video with a
Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。
提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。
マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文 参考訳(メタデータ) (2023-03-02T12:22:51Z) - Prepended Domain Transformer: Heterogeneous Face Recognition without
Bells and Whistles [9.419177623349947]
我々は、異なる知覚モードで顔画像とマッチングする、驚くほどシンプルで、かつ、非常に効果的な方法を提案する。
提案するアプローチはアーキテクチャ非依存であり、事前訓練されたモデルに追加することができる。
ソースコードとプロトコルは一般公開される予定だ。
論文 参考訳(メタデータ) (2022-10-12T18:54:57Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。