Fugu-MT 論文翻訳(概要): VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

論文の概要: VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters

arxiv url: http://arxiv.org/abs/2408.17253v2
Date: Wed, 2 Oct 2024 17:21:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 03:57:28.131835
Title: VisionTS: Visual Masked Autoencoders Are Free-Lunch Zero-Shot Time Series Forecasters
Title（参考訳）: VisionTS:ビジュアル・マズード・オートエンコーダーは無料のゼロショット・タイム・シリーズ
Authors: Mouxiang Chen, Lefei Shen, Zhuo Li, Xiaoyun Joy Wang, Jianling Sun, Chenghao Liu,
Abstract要約: 本稿では,リッチで高品質な自然画像からTSFファンデーションモデルを構築するための新しい道を探る。画像再構成タスクとしてTSFを再構成することにより、画像事前学習とTSF下流タスクのギャップを埋める。提案されたVisionTSは、既存のTSFファンデーションモデルよりも優れたゼロショット予測性能を実現することができる。
参考スコア（独自算出の注目度）: 27.80286758290421
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Foundation models have emerged as a promising approach in time series forecasting (TSF). Existing approaches either repurpose large language models (LLMs) or build large-scale time series datasets to develop TSF foundation models for universal forecasting. However, these methods face challenges due to the severe cross-domain gap or in-domain heterogeneity. This paper explores a new road to building a TSF foundation model from rich, high-quality natural images. Our key insight is that a visual masked autoencoder, pre-trained on the ImageNet dataset, can naturally be a numeric series forecaster. By reformulating TSF as an image reconstruction task, we bridge the gap between image pre-training and TSF downstream tasks. Surprisingly, without further adaptation in the time-series domain, the proposed VisionTS could achieve superior zero-shot forecasting performance compared to existing TSF foundation models. With fine-tuning for one epoch, VisionTS could further improve the forecasting and achieve state-of-the-art performance in most cases. Extensive experiments reveal intrinsic similarities between images and real-world time series, suggesting visual models may offer a ``free lunch'' for TSF and highlight the potential for future cross-modality research. Our code is publicly available at https://github.com/Keytoyze/VisionTS.
Abstract（参考訳）: ファウンデーションモデルは時系列予測(TSF)において有望なアプローチとして現れている。既存のアプローチでは、大きな言語モデル(LLM)を再利用するか、大規模な時系列データセットを構築して、普遍的な予測のためのTSF基盤モデルを開発する。しかし、これらの手法はドメイン間ギャップやドメイン内不均一性のために困難に直面している。本稿では,リッチで高品質な自然画像からTSFファンデーションモデルを構築するための新しい道を探る。私たちの重要な洞察は、ImageNetデータセットで事前トレーニングされた視覚マスク付きオートエンコーダが、自然に数値列予測器になり得るということです。画像再構成タスクとしてTSFを再構成することにより、画像事前学習とTSF下流タスクのギャップを埋める。驚くべきことに、時系列領域にさらなる適応がなければ、提案されたVisionTSは既存のTSFファンデーションモデルよりも優れたゼロショット予測性能を達成できる。一時期の微調整によって、VisionTSは予測をさらに改善し、ほとんどのケースで最先端のパフォーマンスを達成することができる。広範にわたる実験は、画像と実世界の時系列の固有の類似性を明らかにし、視覚モデルがTSFに「フリーランチ」を提供し、将来のモダリティ研究の可能性を強調することを示唆している。私たちのコードはhttps://github.com/Keytoyze/VisionTS.comで公開されています。

関連論文リスト

Vision-Enhanced Time Series Forecasting via Latent Diffusion Models [12.54316645614762]
LDM4TSは視覚強調時系列予測のための遅延拡散モデルの強力な画像再構成機能を利用する新しいフレームワークである。時系列を多視点視覚表現に変換するための補完的変換手法を最初に用いた。
論文参考訳（メタデータ） (2025-02-16T14:15:06Z)
FoundTS: Comprehensive and Unified Benchmarking of Foundation Models for Time Series Forecasting [44.33565276128137]
時系列予測(TSF)は、金融、気象サービス、エネルギー管理など、多くの分野で重要な機能である。ファンデーションモデルは、新しいまたは見えないデータで有望な推論機能を示す。そこで我々は,そのようなモデルの徹底的かつ公平な評価と比較を可能にする新しいベンチマーク FoundTS を提案する。
論文参考訳（メタデータ） (2024-10-15T17:23:49Z)
ViTime: A Visual Intelligence-Based Foundation Model for Time Series Forecasting [38.87384888881476]
本稿では,時系列予測のためのビジュアルインテリジェンスに基づく新しい基礎モデルであるViTimeを提案する。これまで目にしなかったさまざまな予測データセットの実験は、ViTimeが最先端のゼロショットパフォーマンスを達成することを実証している。
論文参考訳（メタデータ） (2024-07-10T02:11:01Z)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文参考訳（メタデータ） (2024-03-29T10:38:25Z)
Unified Training of Universal Time Series Forecasting Transformers [104.56318980466742]
マスク型ユニバーサル時系列予測変換器(モイライ)について述べる。 Moiraiは、新たに導入された大規模オープンタイムシリーズアーカイブ(LOTSA)で訓練されており、9つのドメインで27億以上の観測が行われた。 Moiraiは、フルショットモデルと比較してゼロショットの予測器として、競争力や優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-02-04T20:00:45Z)
Timer: Generative Pre-trained Transformers Are Large Time Series Models [83.03091523806668]
本稿では,大規模時系列モデル(LTSM)の早期開発を目的とした。事前トレーニング中に、最大10億のタイムポイントを持つ大規模なデータセットをキュレートします。多様なアプリケーションのニーズを満たすため,予測,計算,時系列の異常検出を統一的な生成タスクに変換する。
論文参考訳（メタデータ） (2024-02-04T06:55:55Z)
Lag-Llama: Towards Foundation Models for Probabilistic Time Series Forecasting [54.04430089029033]
本稿では,デコーダのみの変換器アーキテクチャに基づく時系列予測のための汎用基礎モデルであるLag-Llamaを提案する。 Lag-Llamaは、複数のドメインからの多様な時系列データの大規模なコーパスで事前訓練され、強力なゼロショット一般化能力を示す。このような未確認データセットの比較的小さな部分で微調整を行うと、Lag-Llamaは最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-10-12T12:29:32Z)
Single-Stage Diffusion NeRF: A Unified Approach to 3D Generation and Reconstruction [77.69363640021503]
3D対応画像合成は、シーン生成や画像からの新規ビュー合成など、様々なタスクを含む。本稿では,様々な物体の多視点画像から,ニューラルラディアンス場(NeRF)の一般化可能な事前学習を行うために,表現拡散モデルを用いた統一的アプローチであるSSDNeRFを提案する。
論文参考訳（メタデータ） (2023-04-13T17:59:01Z)
STDepthFormer: Predicting Spatio-temporal Depth from Video with a Self-supervised Transformer Model [0.0]
ビデオ入力と空間的時間的注意ネットワークから,映像のフレーム列を同時に予測する自己教師型モデルを提案する。提案モデルでは,物体形状やテクスチャなどの事前のシーン知識を,単一画像深度推定法に類似した手法で活用する。マルチオブジェクト検出、セグメンテーション、トラッキングを含む複雑なモデルを必要とするのではなく、暗黙的にシーン内のオブジェクトの動きを予測することができる。
論文参考訳（メタデータ） (2023-03-02T12:22:51Z)
FrAug: Frequency Domain Augmentation for Time Series Forecasting [6.508992154478217]
データ拡張(DA)は、ディープラーニングのためのトレーニングデータサイズを拡張するデファクトソリューションになっています。本稿では、予測における拡張データ-ラベルペアのセマンティック一貫性を保証するための、単純で効果的な周波数領域拡張手法を提案する。その結果,ほとんどの場合,FrAugはTSFモデルの予測精度を高めることができることがわかった。
論文参考訳（メタデータ） (2023-02-18T11:25:42Z)
Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文参考訳（メタデータ） (2022-10-25T16:22:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。