論文の概要: VETime: Vision Enhanced Zero-Shot Time Series Anomaly Detection
- arxiv url: http://arxiv.org/abs/2602.16681v1
- Date: Wed, 18 Feb 2026 18:22:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.679573
- Title: VETime: Vision Enhanced Zero-Shot Time Series Anomaly Detection
- Title(参考訳): VETime:ビジョン強化ゼロショット時系列異常検出
- Authors: Yingyuan Yang, Tian Lan, Yifei Gao, Yimeng Lu, Wenjun He, Meng Wang, Chenghao Liu, Chen Zhang,
- Abstract要約: 時系列異常検出(TSAD)では、即時ポイント異常と長距離コンテキスト異常の両方を識別する必要がある。
本稿では,視覚的時間的アライメントと動的融合により時間的・視覚的モダリティを統一する,最初のTSADフレームワークであるVETimeを提案する。
VETimeはゼロショットシナリオにおける最先端モデルよりも優れており、現在のビジョンベースアプローチよりも計算オーバーヘッドの少ないローカライズ精度が優れている。
- 参考スコア(独自算出の注目度): 36.10754425277683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Time-series anomaly detection (TSAD) requires identifying both immediate Point Anomalies and long-range Context Anomalies. However, existing foundation models face a fundamental trade-off: 1D temporal models provide fine-grained pointwise localization but lack a global contextual perspective, while 2D vision-based models capture global patterns but suffer from information bottlenecks due to a lack of temporal alignment and coarse-grained pointwise detection. To resolve this dilemma, we propose VETime, the first TSAD framework that unifies temporal and visual modalities through fine-grained visual-temporal alignment and dynamic fusion. VETime introduces a Reversible Image Conversion and a Patch-Level Temporal Alignment module to establish a shared visual-temporal timeline, preserving discriminative details while maintaining temporal sensitivity. Furthermore, we design an Anomaly Window Contrastive Learning mechanism and a Task-Adaptive Multi-Modal Fusion to adaptively integrate the complementary perceptual strengths of both modalities. Extensive experiments demonstrate that VETime significantly outperforms state-of-the-art models in zero-shot scenarios, achieving superior localization precision with lower computational overhead than current vision-based approaches. Code available at: https://github.com/yyyangcoder/VETime.
- Abstract(参考訳): 時系列異常検出(TSAD)では、即時ポイント異常と長距離コンテキスト異常の両方を識別する必要がある。
しかし、既存の基礎モデルは、基本的なトレードオフに直面している: 1次元の時間的モデルは、細粒度のポイントワイドローカライゼーションを提供するが、大域的な文脈的視点は欠如する一方、2次元の視覚ベースのモデルは、グローバルなパターンを捉えるが、時間的アライメントの欠如と粗いポイントワイド検出のために、情報のボトルネックに悩まされる。
このジレンマを解決するために,視覚的時間的アライメントと動的融合により時間的・視覚的モダリティを統一する,最初のTSADフレームワークであるVETimeを提案する。
VETimeはReversible Image ConversionとPatch-Level Temporal Alignmentモジュールを導入し、時間感度を維持しながら識別の詳細を保存する。
さらに,Anomaly Window Contrastive Learning機構とTask-Adaptive Multi-Modal Fusionを設計し,両モードの相補的知覚強度を適応的に統合する。
大規模な実験では、VETimeはゼロショットシナリオにおける最先端モデルよりも大幅に優れており、現在のビジョンベースアプローチよりも計算オーバーヘッドの少ないローカライズ精度が向上している。
コードは、https://github.com/yyyangcoder/VETime.comで入手できる。
関連論文リスト
- DARTs: A Dual-Path Robust Framework for Anomaly Detection in High-Dimensional Multivariate Time Series [22.29889788385778]
多次元時系列異常(MTSAD)は,大規模産業制御システムにおける複雑な異常パターンを正確に同定し,局所化することを目的としている。
既存のアプローチは、低表現下で異なるパターンを認識するのに優れていますが、高次元の時系列から学ぶ際には、長距離依存をしっかりと捉えることができません。
論文 参考訳(メタデータ) (2025-12-14T07:40:23Z) - Temporal-Visual Semantic Alignment: A Unified Architecture for Transferring Spatial Priors from Vision Models to Zero-Shot Temporal Tasks [19.299293037292113]
TimeArtistは、時系列のゆらぎと視覚概念のセマンティックレベルアライメントの先駆けとなる、時間-視覚変換フレームワークである。
我々の研究は、時間的ダイナミクスと視覚的セマンティクスのギャップを埋めて、クロスモーダル生成の新しいパラダイムを確立します。
論文 参考訳(メタデータ) (2025-11-25T02:35:48Z) - DAMS:Dual-Branch Adaptive Multiscale Spatiotemporal Framework for Video Anomaly Detection [7.117824587276951]
この研究は、マルチレベル特徴とデカップリング融合に基づくDual-Branch Adaptive Multiscale Stemporal Framework (DAMS)と呼ばれるデュアルパスアーキテクチャを提供する。
主処理経路は、適応型マルチスケール時間ピラミッドネットワーク(AMTPN)と畳み込みブロック注意機構(CBAM)を統合している。
論文 参考訳(メタデータ) (2025-07-28T08:42:00Z) - OptiCorNet: Optimizing Sequence-Based Context Correlation for Visual Place Recognition [2.3093110834423616]
本稿では,新しいシーケンスモデリングフレームワークOptiCorNetを提案する。
空間的特徴抽出と時間的差分を微分可能でエンドツーエンドのトレーニング可能なモジュールに統一する。
本手法は,季節的・視点的な変化に挑戦し,最先端のベースラインよりも優れる。
論文 参考訳(メタデータ) (2025-07-19T04:29:43Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - USTEP: Spatio-Temporal Predictive Learning under A Unified View [62.58464029270846]
UTEP(Unified S-Temporal Predictive Learning)は,マイクロテンポラリスケールとマクロテンポラリスケールを統合した再帰的および再帰的フリーな手法を再構築する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2023-10-09T16:17:42Z) - CARLA: Self-supervised Contrastive Representation Learning for Time Series Anomaly Detection [53.83593870825628]
時系列異常検出(TSAD)の主な課題は、多くの実生活シナリオにおいてラベル付きデータの欠如である。
既存の異常検出手法の多くは、教師なしの方法で非ラベル時系列の正常な振る舞いを学習することに焦点を当てている。
本稿では,時系列異常検出のためのエンドツーエンドの自己教師型コントラアスティブ表現学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T04:45:56Z) - Learning Monocular Depth in Dynamic Environment via Context-aware
Temporal Attention [9.837958401514141]
マルチフレーム単眼深度推定のためのコンテキスト対応テンポラルアテンション誘導ネットワークであるCTA-Depthを提案する。
提案手法は,3つのベンチマークデータセットに対する最先端アプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-05-12T11:48:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。