論文の概要: Tiny but Trusted: Efficient Vision-Language Reasoning for Time-Series Anomaly Detection
- arxiv url: http://arxiv.org/abs/2605.30344v1
- Date: Thu, 28 May 2026 17:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.757458
- Title: Tiny but Trusted: Efficient Vision-Language Reasoning for Time-Series Anomaly Detection
- Title(参考訳): Tiny but Trusted: Time-Series Anomaly Detection のための効率的な視覚言語推論
- Authors: Xiaona Zhou, Muntasir Wahed, Tianjiao Yu, Constantin Brif, Ismini Lourentzou,
- Abstract要約: 時系列異常検出のためのパラメータ効率の高いVLMであるVisAnomReasonerを開発した。
VisAnomReasonerはより正確な局所化を実現し、全てのベースラインを一貫して上回ることを示す。
TSB-AD-Uベンチマークのさらなる実験では、強いベンチマークの一般化が示されている。
- 参考スコア(独自算出の注目度): 5.9220868724924856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Vision-Language Models (VLMs) have achieved impressive performance across many tasks, yet prior studies report unsatisfactory performance when applying large language or multimodal models to finding abnormal patterns in sequential data. Public anomaly detection benchmarks typically provide interval annotations but not natural-language rationales, making it difficult to fine-tune VLMs to produce grounded, interpretable decisions. To address this gap, we construct VisAnomBench, a curated benchmark built from public time-series datasets and augmented with high-quality anomaly explanations selected from multiple large VLMs using fine-grained, task-specific rewards. Through fine-tuning on this benchmark, we develop VisAnomReasoner, a parameter-efficient VLM for time-series anomaly detection. Experimental results on VisAnomBench show that VisAnomReasoner achieves more accurate anomaly localization and consistently outperforms all baselines, with improvements of at least 21.23 and 23.87 percentage points in precision and F1, respectively. Additional experiments on the TSB-AD-U benchmark demonstrate strong cross-benchmark generalization, with VisAnomReasoner improving precision and F1 by 9.57 and 13.39 percentage points, respectively.
- Abstract(参考訳): 近年のVLM(Vision-Language Models)の進歩は,多くのタスクにおいて顕著なパフォーマンスを達成しているが,先行研究では,大規模言語やマルチモーダルモデルを適用して逐次データに異常なパターンを見出す場合,不満足なパフォーマンスを報告している。
パブリックな異常検出ベンチマークは、通常インターバルアノテーションを提供するが、自然言語の合理性ではないため、VLMを微調整し、基礎的で解釈可能な決定を生成することは困難である。
このギャップに対処するために、VisAnomBenchという、公開時系列データセットから構築されたキュレートされたベンチマークを構築し、細かなタスク固有の報酬を使用して、複数の大きなVLMから選択された高品質な異常説明を拡張した。
このベンチマークの微調整により、時系列異常検出のためのパラメータ効率の高いVLMであるVisAnomReasonerを開発した。
VisAnomBenchの実験結果によると、VisAnomReasonerはより正確な局所化を実現し、全てのベースラインを一貫して上回り、それぞれ21.23と23.87の精度で改善されている。
TSB-AD-Uベンチマークのさらなる実験では、VisAnomReasonerは精度を9.57倍、F1は13.39ポイント向上した。
関連論文リスト
- UAVReason: A Unified, Large-Scale Benchmark for Multimodal Aerial Scene Reasoning and Generation [22.090256033688124]
UAVReasonは,Nadir-view UAVシナリオ専用の,最初の大規模マルチモーダルベンチマークである。
273K以上のVQA(Visual Question Answering)ペアを統合し、詳細なキャプションを持つ23.6Kのシングルフレーム、68.2Kの2フレームの時間シーケンス、および188.8Kのクロスモーダル生成サンプルを含む。
ベンチマークでは、空間的および時間的軸にわたる22種類の推論タイプを調査し、同時にRGB、深さ、セグメンテーションのモダリティにわたる高忠実度生成を評価した。
論文 参考訳(メタデータ) (2026-04-07T03:23:30Z) - Inferring Events from Time Series using Language Models [13.414101942484582]
時系列データは、時間とともに環境がどのように変化するかを測定し、金融や医療といった重要な領域における意思決定を促進する。
本研究では,Large Language Models (LLMs) が時系列データから自然言語で記述された事象を推測できるかどうかを初めて検討する。
現在のLLMはいくつかの有望な能力を示しており、OpenAIのo1は最高だが、DS-R1-distill-Qwen-32BはGPT-4oのようなプロプライエタリなモデルより優れている。
論文 参考訳(メタデータ) (2025-03-18T12:07:33Z) - Debiased Prompt Tuning in Vision-Language Model without Annotations [14.811475313694041]
VLM(Vision-Language Models)は、素早い相関の問題に悩まされる可能性がある。
擬似純粋属性アノテーションを利用することで,異なるグループのトレーニング重みを自動調整する手法を提案する。
提案手法は,CelebA,Waterbirds,MetaShiftのデータセットにおける最悪のグループ精度を効率的に向上する。
論文 参考訳(メタデータ) (2025-03-11T12:24:54Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Self-supervised Feature Adaptation for 3D Industrial Anomaly Detection [59.41026558455904]
具体的には,大規模ビジュアルデータセット上で事前学習されたモデルを利用した初期のマルチモーダルアプローチについて検討する。
本研究では,アダプタを微調整し,異常検出に向けたタスク指向の表現を学習するためのLSFA法を提案する。
論文 参考訳(メタデータ) (2024-01-06T07:30:41Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [49.15931834209624]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - NVAE-GAN Based Approach for Unsupervised Time Series Anomaly Detection [19.726089445453734]
時系列異常検出は、多くの業界で一般的だが難しい課題である。
実世界から収集されたノイズデータから,時系列の異常を高精度に検出することは困難である。
我々は異常検出モデルを提案する:時系列から画像VAE (T2IVAE)
論文 参考訳(メタデータ) (2021-01-08T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。