論文の概要: Time Series Representations for Classification Lie Hidden in Pretrained Vision Transformers
- arxiv url: http://arxiv.org/abs/2506.08641v1
- Date: Tue, 10 Jun 2025 09:54:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.261017
- Title: Time Series Representations for Classification Lie Hidden in Pretrained Vision Transformers
- Title(参考訳): 予め訓練された視覚変換器に隠された分類リーの時系列表現
- Authors: Simon Roschmann, Quentin Bouniot, Vasilii Feofanov, Ievgen Redko, Zeynep Akata,
- Abstract要約: 時系列を画像に変換するフレームワークであるTime Vision Transformer (TiViT) を提案する。
我々は,標準時系列分類ベンチマークにおいて,TiViTが最先端の性能を達成することを実証的に実証した。
- 参考スコア(独自算出の注目度): 49.07665715422702
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Time series classification is a fundamental task in healthcare and industry, yet the development of time series foundation models (TSFMs) remains limited by the scarcity of publicly available time series datasets. In this work, we propose Time Vision Transformer (TiViT), a framework that converts time series into images to leverage the representational power of frozen Vision Transformers (ViTs) pretrained on large-scale image datasets. First, we theoretically motivate our approach by analyzing the 2D patching of ViTs for time series, showing that it can increase the number of label-relevant tokens and reduce the sample complexity. Second, we empirically demonstrate that TiViT achieves state-of-the-art performance on standard time series classification benchmarks by utilizing the hidden representations of large OpenCLIP models. We explore the structure of TiViT representations and find that intermediate layers with high intrinsic dimension are the most effective for time series classification. Finally, we assess the alignment between TiViT and TSFM representation spaces and identify a strong complementarity, with further performance gains achieved by combining their features. Our findings reveal yet another direction for reusing vision representations in a non-visual domain.
- Abstract(参考訳): 時系列分類は医療や産業における基本的な課題であるが、時系列基盤モデル(TSFM)の開発は、一般に利用可能な時系列データセットの不足によって制限されている。
本研究では,時系列を画像に変換するフレームワークであるTime Vision Transformer (TiViT)を提案する。
まず、時系列のViTの2次元パッチングを分析し、ラベル関連トークンの数を増やし、サンプルの複雑さを低減することによって、我々のアプローチを理論的に動機づける。
第2に,大容量OpenCLIPモデルの隠蔽表現を利用して,標準時系列分類ベンチマークにおけるTiViTの最先端性能を実証的に実証した。
我々は,TiViT表現の構造を探求し,高内在次元の中間層が時系列分類に最も有効であることを示す。
最後に,TiViT と TSFM の表現空間のアライメントを評価し,それらの特徴を組み合わせることでさらなる性能向上を実現する。
非視覚領域における視覚表現の再利用に向けた新たな方向性が明らかとなった。
関連論文リスト
- Time Series as Images: Vision Transformer for Irregularly Sampled Time
Series [32.99466250557855]
本稿では,不規則なサンプル時系列を線グラフ画像に変換することによって,新しい視点を提案する。
次に、画像分類と同様に、時系列分類に強力な事前学習型視覚変換器を利用する。
注目すべきは、その単純さにもかかわらず、私たちのアプローチは、いくつかの一般的な医療および人間の活動データセットに関する最先端の特殊アルゴリズムよりも優れていることです。
論文 参考訳(メタデータ) (2023-03-01T22:42:44Z) - FormerTime: Hierarchical Multi-Scale Representations for Multivariate
Time Series Classification [53.55504611255664]
formerTimeは、多変量時系列分類タスクの分類能力を改善する階層的表現モデルである。
1)時系列データから階層的なマルチスケール表現を学習し、(2)トランスフォーマーと畳み込みネットワークの強さを継承し、(3)自己維持メカニズムによって引き起こされる効率の課題に取り組む。
論文 参考訳(メタデータ) (2023-02-20T07:46:14Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - Expressing Multivariate Time Series as Graphs with Time Series Attention
Transformer [14.172091921813065]
多変量時系列表現学習のための時系列注意変換器(TSAT)を提案する。
TSATを用いて、エッジ強化された動的グラフの観点から、時系列の時間情報と相互依存の両方を表現している。
TSATは、様々な予測地平線において、最先端の6つのベースライン法より明らかに優れていることを示す。
論文 参考訳(メタデータ) (2022-08-19T12:25:56Z) - HyperTime: Implicit Neural Representation for Time Series [131.57172578210256]
暗黙の神経表現(INR)は、データの正確で解像度に依存しないエンコーディングを提供する強力なツールとして最近登場した。
本稿では、INRを用いて時系列の表現を分析し、再構成精度とトレーニング収束速度の点で異なるアクティベーション関数を比較した。
本稿では,INRを利用して時系列データセット全体の圧縮潜在表現を学習するハイパーネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-08-11T14:05:51Z) - Attention Augmented Convolutional Transformer for Tabular Time-series [0.9137554315375922]
時系列分類は、産業データ科学において最も頻繁に実行されるタスクの1つである。
時系列データから表現を学習するための新しいスケーラブルアーキテクチャを提案する。
提案するモデルはエンドツーエンドで,カテゴリ型と連続型の両方の値入力を処理できる。
論文 参考訳(メタデータ) (2021-10-05T05:20:46Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。