論文の概要: Evaluating Large Language Models for Time Series Anomaly Detection in Aerospace Software
- arxiv url: http://arxiv.org/abs/2601.12448v1
- Date: Sun, 18 Jan 2026 15:07:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.636658
- Title: Evaluating Large Language Models for Time Series Anomaly Detection in Aerospace Software
- Title(参考訳): 航空ソフトウェアにおける時系列異常検出のための大規模言語モデルの評価
- Authors: Yang Liu, Yixing Luo, Xiaofeng Li, Xiaogang Dong, Bin Gu, Zhi Jin,
- Abstract要約: 時系列異常検出(TSAD)は、航空宇宙ソフトウェアシステムの安全性と信頼性を確保するために不可欠である。
大規模言語モデル(LLM)は、教師なしアプローチに代わる、有望なトレーニングなしの代替手段を提供する。
ATSADBenchは航空宇宙TSADの最初のベンチマークである。
- 参考スコア(独自算出の注目度): 46.75681367373185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Time series anomaly detection (TSAD) is essential for ensuring the safety and reliability of aerospace software systems. Although large language models (LLMs) provide a promising training-free alternative to unsupervised approaches, their effectiveness in aerospace settings remains under-examined because of complex telemetry, misaligned evaluation metrics, and the absence of domain knowledge. To address this gap, we introduce ATSADBench, the first benchmark for aerospace TSAD. ATSADBench comprises nine tasks that combine three pattern-wise anomaly types, univariate and multivariate signals, and both in-loop and out-of-loop feedback scenarios, yielding 108,000 data points. Using this benchmark, we systematically evaluate state-of-the-art open-source LLMs under two paradigms: Direct, which labels anomalies within sliding windows, and Prediction-Based, which detects anomalies from prediction errors. To reflect operational needs, we reformulate evaluation at the window level and propose three user-oriented metrics: Alarm Accuracy (AA), Alarm Latency (AL), and Alarm Contiguity (AC), which quantify alarm correctness, timeliness, and credibility. We further examine two enhancement strategies, few-shot learning and retrieval-augmented generation (RAG), to inject domain knowledge. The evaluation results show that (1) LLMs perform well on univariate tasks but struggle with multivariate telemetry, (2) their AA and AC on multivariate tasks approach random guessing, (3) few-shot learning provides modest gains whereas RAG offers no significant improvement, and (4) in practice LLMs can detect true anomaly onsets yet sometimes raise false alarms, which few-shot prompting mitigates but RAG exacerbates. These findings offer guidance for future LLM-based TSAD in aerospace software.
- Abstract(参考訳): 時系列異常検出(TSAD)は、航空宇宙ソフトウェアシステムの安全性と信頼性を確保するために不可欠である。
大規模言語モデル(LLM)は、教師なしアプローチに代わる有望なトレーニング不要な代替手段を提供するが、複雑なテレメトリ、不整合評価指標、ドメイン知識の欠如などにより、航空宇宙環境におけるそれらの効果は未検討のままである。
このギャップに対処するため,航空宇宙TSADの最初のベンチマークであるTSADBenchを紹介する。
ATSADBenchは、3つのパターンワイド異常タイプ、一変量信号と多変量信号、ループ内およびループ外の両方のフィードバックシナリオを組み合わせた9つのタスクで構成され、108,000のデータポイントを得る。
本ベンチマークを用いて,現在最先端のオープンソース LLM を,スライディングウィンドウ内の異常をラベル付けする Direct と,予測エラーから異常を検出する Prediction-Based の2つのパラダイムで体系的に評価した。
運用上のニーズを反映して,アラーム精度(AA),アラームレイテンシ(AL),アラームの正確性,タイムライン,信頼性の定量化を行うアラーム精度(AC)の3つのユーザ指向指標を提案する。
さらに、ドメイン知識を注入するための2つの強化戦略、少数ショット学習と検索強化生成(RAG)についても検討する。
評価の結果,(1)LLMは単変量タスクでは良好に機能するが,多変量テレメトリでは困難であり,(2)多変量タスクではAとACがランダムな推測に近づき,(3)少数ショット学習ではモデストゲインが得られず,(4)RAGでは有意な改善が得られず,(4)実際にLPMは真に異常なアラームを検出できるが,時に誤アラームを発生させることがある。
これらの知見は将来の航空宇宙ソフトウェアにおける LLM ベースの TSAD のガイダンスを提供する。
関連論文リスト
- LLM-Enhanced Reinforcement Learning for Time Series Anomaly Detection [1.1852406625172216]
時系列異常検出は、しばしばスパースラベル、複雑な時間パターン、高価な専門家アノテーションに悩まされる。
本稿では,LL(Reinforcement Learning),VAE(Variational Autoencoder)の強化された動的報酬スケーリング,ラベル伝搬によるアクティブラーニングを併用した,LLM(Large Language Model)に基づく報酬形成機能の統合フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-05T19:33:30Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - DetectAnyLLM: Towards Generalizable and Robust Detection of Machine-Generated Text Across Domains and Models [60.713908578319256]
タスク指向の知識で検出器を最適化するために,DDL(Direct Discrepancy Learning)を提案する。
そこで本研究では,最新のMGTD性能を実現する統合検出フレームワークであるTectAnyLLMを紹介する。
MIRAGEは5つのテキストドメインにまたがる10のコーパスから人書きテキストをサンプリングし、17個の最先端のLLMを使用して再生成または修正する。
論文 参考訳(メタデータ) (2025-09-15T10:59:57Z) - ANVIL: Anomaly-based Vulnerability Identification without Labelled Training Data [8.667471866135367]
教師付き学習ベースの脆弱性検知器は、ラベル付きトレーニングデータに制限があるため、しばしば不足する。
本稿では,脆弱性検出を異常検出として再設定する。
論文 参考訳(メタデータ) (2024-08-28T03:28:17Z) - Real-Time Anomaly Detection and Reactive Planning with Large Language Models [18.57162998677491]
例えば、大規模な言語モデル(LLM)は、インターネットスケールのデータに基づいて訓練され、ゼロショット機能を持つ。
本稿では,潜在的な異常に関する判断を安全な制御フレームワークに組み込む2段階の推論フレームワークを提案する。
これにより、モニターは、四輪車や自動運転車のような動的ロボットシステムの信頼性を向上させることができる。
論文 参考訳(メタデータ) (2024-07-11T17:59:22Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - MKF-ADS: Multi-Knowledge Fusion Based Self-supervised Anomaly Detection System for Control Area Network [9.305680247704542]
制御エリアネットワーク(英: Control Area Network, CAN)は、車両ネットワークにおける電子制御ユニット(ECU)間の通信プロトコルである。
CANは、本質的にセキュリティ上のリスクのために、厳しいセキュリティ上の課題に直面している。
本稿では,MKF-ADSと呼ばれる自己教師付き多知識融合異常検出モデルを提案する。
論文 参考訳(メタデータ) (2024-03-07T07:40:53Z) - DAE : Discriminatory Auto-Encoder for multivariate time-series anomaly
detection in air transportation [68.8204255655161]
識別オートエンコーダ(DAE)と呼ばれる新しい異常検出モデルを提案する。
通常のLSTMベースのオートエンコーダのベースラインを使用するが、いくつかのデコーダがあり、それぞれ特定の飛行フェーズのデータを取得する。
その結果,DAEは精度と検出速度の両方で良好な結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-09-08T14:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。