論文の概要: Harnessing Vision-Language Models for Time Series Anomaly Detection
- arxiv url: http://arxiv.org/abs/2506.06836v1
- Date: Sat, 07 Jun 2025 15:27:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.509657
- Title: Harnessing Vision-Language Models for Time Series Anomaly Detection
- Title(参考訳): 時系列異常検出のためのハーネス化ビジョンランゲージモデル
- Authors: Zelin He, Sarah Alnegheimish, Matthew Reimherr,
- Abstract要約: 時系列異常検出(TSAD)は、医療、金融、産業モニタリングなど様々な分野で重要な役割を果たしてきた。
従来の手法は、主に数値データに基づくドメイン固有モデルの訓練に重点を置いていたが、人間の専門家が文脈異常を識別しなければならない視覚的時間的推論能力は欠如している。
比較的軽量な事前学習型ビジョンエンコーダ上に構築された視覚スクリーニングステージであるViT4TSと,グローバルな時間的コンテキストとVLM推論能力を統合するVLM4TSという2段階のソリューションを提案する。
- 参考スコア(独自算出の注目度): 9.257985820123
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Time-series anomaly detection (TSAD) has played a vital role in a variety of fields, including healthcare, finance, and industrial monitoring. Prior methods, which mainly focus on training domain-specific models on numerical data, lack the visual-temporal reasoning capacity that human experts have to identify contextual anomalies. To fill this gap, we explore a solution based on vision language models (VLMs). Recent studies have shown the ability of VLMs for visual reasoning tasks, yet their direct application to time series has fallen short on both accuracy and efficiency. To harness the power of VLMs for TSAD, we propose a two-stage solution, with (1) ViT4TS, a vision-screening stage built on a relatively lightweight pretrained vision encoder, which leverages 2-D time-series representations to accurately localize candidate anomalies; (2) VLM4TS, a VLM-based stage that integrates global temporal context and VLM reasoning capacity to refine the detection upon the candidates provided by ViT4TS. We show that without any time-series training, VLM4TS outperforms time-series pretrained and from-scratch baselines in most cases, yielding a 24.6 percent improvement in F1-max score over the best baseline. Moreover, VLM4TS also consistently outperforms existing language-model-based TSAD methods and is on average 36 times more efficient in token usage.
- Abstract(参考訳): 時系列異常検出(TSAD)は、医療、金融、産業モニタリングなど様々な分野で重要な役割を果たしてきた。
従来の手法は、主に数値データに基づくドメイン固有モデルの訓練に重点を置いていたが、人間の専門家が文脈異常を識別しなければならない視覚的時間的推論能力は欠如している。
このギャップを埋めるために、視覚言語モデル(VLM)に基づく解決策を探索する。
近年の研究では、視覚的推論タスクにおけるVLMの能力が示されているが、時系列への直接適用は精度と効率の両面で不足している。
TSADにおけるVLMのパワーを活用するために,(1)比較的軽量な事前学習型視覚エンコーダ上に構築された視覚スクリーニングステージであるVT4TS,(2)グローバル時間文脈とVLM推論能力を統合したVLMベースのステージであるVLM4TSを提案する。
時系列トレーニングがなければ、VLM4TSはトレーニング済みの時系列やアウトスクラッチベースラインよりも優れており、最高のベースラインよりもF1-maxスコアが24.6%向上していることを示す。
さらに、VLM4TSは既存の言語モデルベースのTSADメソッドよりも一貫して優れており、トークン使用時の平均36倍の効率である。
関連論文リスト
- From Images to Signals: Are Large Vision Models Useful for Time Series Analysis? [62.58235852194057]
トランスフォーマーベースのモデルは、時系列研究において注目を集めている。
分野がマルチモダリティに向かって進むにつれ、LVM(Large Vision Models)が有望な方向として現れつつある。
論文 参考訳(メタデータ) (2025-05-29T22:05:28Z) - Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL [70.1326027641056]
視覚言語モデル(VLM)は、様々なコンピュータビジョンタスクにおいて印象的な性能を達成している。
本稿では,キー画像領域に適応的な焦点付けとズームインを行うことができるChain-of-Focus(CoF)手法を提案する。
教師付き微調整と強化学習を含む2段階の訓練パイプラインを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:18:15Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - LLM4TS: Aligning Pre-Trained LLMs as Data-Efficient Time-Series Forecasters [11.796765525301051]
事前学習された大言語モデル(LLM)を用いた時系列予測のためのフレームワークを提案する。
LLM4TSは、LLMを時系列データのニュアンスと整合させる2段階の微調整戦略と、下流の時系列予測タスクの予測微調整段階から構成される。
我々のフレームワークは、事前訓練されたLLM内に多段階の時間データを統合し、時間固有の情報を解釈する能力を向上する新しい2段階集約手法を特徴としている。
論文 参考訳(メタデータ) (2023-08-16T16:19:50Z) - Vision-Language Models for Vision Tasks: A Survey [62.543250338410836]
視覚言語モデル(VLM)は、Webスケールの画像テキストペアからリッチな視覚言語相関を学習する。
本稿では,視覚認知タスクにおける視覚言語モデルの体系的レビューを行う。
論文 参考訳(メタデータ) (2023-04-03T02:17:05Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。