論文の概要: Follow the Rules: Reasoning for Video Anomaly Detection with Large Language Models
- arxiv url: http://arxiv.org/abs/2407.10299v2
- Date: Sat, 20 Jul 2024 07:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 00:12:27.292821
- Title: Follow the Rules: Reasoning for Video Anomaly Detection with Large Language Models
- Title(参考訳): ルールに従う:大規模言語モデルを用いたビデオ異常検出のための推論
- Authors: Yuchen Yang, Kwonjoon Lee, Behzad Dariush, Yinzhi Cao, Shao-Yuan Lo,
- Abstract要約: ビデオ異常検出は、セキュリティ監視や自動運転といったアプリケーションには不可欠である。
既存のVADメソッドは、検出の背後にある根拠をほとんど示さず、現実世界のデプロイメントに対する公衆の信頼を妨げる。
本稿では,大言語モデルを用いたVADのためのルールベースの推論フレームワークであるAnomalyRulerを提案する。
- 参考スコア(独自算出の注目度): 21.48544455321618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Anomaly Detection (VAD) is crucial for applications such as security surveillance and autonomous driving. However, existing VAD methods provide little rationale behind detection, hindering public trust in real-world deployments. In this paper, we approach VAD with a reasoning framework. Although Large Language Models (LLMs) have shown revolutionary reasoning ability, we find that their direct use falls short of VAD. Specifically, the implicit knowledge pre-trained in LLMs focuses on general context and thus may not apply to every specific real-world VAD scenario, leading to inflexibility and inaccuracy. To address this, we propose AnomalyRuler, a novel rule-based reasoning framework for VAD with LLMs. AnomalyRuler comprises two main stages: induction and deduction. In the induction stage, the LLM is fed with few-shot normal reference samples and then summarizes these normal patterns to induce a set of rules for detecting anomalies. The deduction stage follows the induced rules to spot anomalous frames in test videos. Additionally, we design rule aggregation, perception smoothing, and robust reasoning strategies to further enhance AnomalyRuler's robustness. AnomalyRuler is the first reasoning approach for the one-class VAD task, which requires only few-normal-shot prompting without the need for full-shot training, thereby enabling fast adaption to various VAD scenarios. Comprehensive experiments across four VAD benchmarks demonstrate AnomalyRuler's state-of-the-art detection performance and reasoning ability. AnomalyRuler is open-source and available at: https://github.com/Yuchen413/AnomalyRuler
- Abstract(参考訳): ビデオ異常検出(VAD)は、セキュリティ監視や自動運転といったアプリケーションには不可欠である。
しかしながら、既存のVADメソッドは検出の背後にある根拠をほとんど示さず、現実のデプロイメントに対する公衆の信頼を妨げている。
本稿では,VADに推論の枠組みでアプローチする。
LLM(Large Language Models)は革命的推論能力を示しているが、それらの直接的な使用はVADに劣っている。
具体的には、LLMsで事前訓練された暗黙の知識は、一般的な文脈に焦点をあてており、それゆえ、特定の現実世界のVADシナリオに当てはまらないため、柔軟性と不正確性をもたらす。
そこで本研究では,ALD と LLM を組み合わせた新しいルールベース推論フレームワーク AnomalyRuler を提案する。
AnomalyRulerは、誘導と推論の2つの主要なステージから構成される。
誘導段階では、LSMは数発の正常参照サンプルで供給され、その後これらの正常なパターンを要約して、異常を検出するための一連の規則を誘導する。
推論段階は、テストビデオ中の異常フレームを見つけるための誘導規則に従う。
さらに,ルールアグリゲーション,知覚のスムース化,ロバストな推論戦略を設計し,AnomalyRulerのロバスト性をさらに強化する。
AnomalyRulerは、ワンクラスのVADタスクの最初の推論アプローチであり、フルショットのトレーニングを必要とせずに、ほとんどノーマルショットのプロンプトを必要とせず、様々なVADシナリオへの迅速な適応を可能にする。
4つのVADベンチマークの総合的な実験は、AnomalyRulerの最先端検出性能と推論能力を示している。
AnomalyRulerはオープンソースで、https://github.com/Yuchen413/AnomalyRulerで利用可能である。
関連論文リスト
- Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection [66.16595174895802]
既存のAI生成画像(AIGI)検出手法は、しばしば限定的な一般化性能に悩まされる。
本稿では、AIGI検出において、これまで見過ごされてきた重要な非対称性現象を同定する。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Holmes-VAD: Towards Unbiased and Explainable Video Anomaly Detection via Multi-modal LLM [35.06386971859359]
Holmes-VADは、正確な時間的監督と豊富なマルチモーダル命令を活用する新しいフレームワークである。
大規模なマルチモーダルVAD命令チューニングベンチマークであるVAD-Instruct50kを構築した。
VAD-Instruct50kデータセットに基づいて、解釈可能なビデオ異常検出のためのカスタマイズされたソリューションを開発する。
論文 参考訳(メタデータ) (2024-06-18T03:19:24Z) - PromptAD: Learning Prompts with only Normal Samples for Few-Shot Anomaly Detection [59.34973469354926]
本稿では,PromptADと呼ばれる,数発の異常検出のための一級プロンプト学習手法を提案する。
画像レベル/ピクセルレベルの異常検出のために、PromptADはMVTecとVisAで11/12のショット設定で1位を達成した。
論文 参考訳(メタデータ) (2024-04-08T06:53:30Z) - Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。
トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。
Language-based VAD (LAVAD)を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:34:55Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Can LLMs Follow Simple Rules? [28.73820874333199]
ルール追従言語評価シナリオ(ルール追従言語評価シナリオ、RuLES)は、大規模言語モデルにおけるルール追従能力を測定するためのフレームワークである。
RuLESは14の単純なテキストシナリオで構成され、そこではモデルがユーザと対話しながら様々なルールに従うように指示される。
現在のほとんどのモデルは、単純なテストケースであっても、シナリオルールに従うのに苦労しています。
論文 参考訳(メタデータ) (2023-11-06T08:50:29Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Machine Learning with Probabilistic Law Discovery: A Concise
Introduction [77.34726150561087]
Probabilistic Law Discovery (PLD) は、確率論的ルール学習の変種を実装した論理ベースの機械学習手法である。
PLDはDecision Tree/Random Forestメソッドに近いが、関連するルールの定義方法に大きく異なる。
本稿はPLDの主な原則を概説し、その利点と限界を強調し、いくつかのアプリケーションガイドラインを提供する。
論文 参考訳(メタデータ) (2022-12-22T17:40:13Z) - Towards Open Set Video Anomaly Detection [11.944167192592905]
Open Set Video Anomaly Detection (OpenVAD) は、既知の異常と新しい異常の両方が存在するビデオデータから異常事象を識別することを目的としている。
本研究では, 深層学習 (EDL) と正規化フロー (NFs) をマルチインスタンス学習 (MIL) フレームワークに統合することにより, オープンVAD 問題に対する弱教師付き手法を開発した。
論文 参考訳(メタデータ) (2022-08-23T17:53:34Z) - A Distance-based Anomaly Detection Framework for Deep Reinforcement Learning [33.623558899286635]
深層強化学習(RL)システムでは、異常な状態が予測不能な行動や安全でない行動を引き起こす可能性があり、重大なリスクを引き起こす。
深部RLアルゴリズムのための新しいMahalanobis distance-based anomaly detection framework, textitMDXを提案する。
MDXは、オフラインとオンラインの両方の設定において、ランダム、逆境、およびアウト・オブ・ディストリビューション(OOD)状態のアウトレイラに同時に対処する。
論文 参考訳(メタデータ) (2021-09-21T00:09:03Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。