論文の概要: PANDA: Towards Generalist Video Anomaly Detection via Agentic AI Engineer
- arxiv url: http://arxiv.org/abs/2509.26386v1
- Date: Tue, 30 Sep 2025 15:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.181066
- Title: PANDA: Towards Generalist Video Anomaly Detection via Agentic AI Engineer
- Title(参考訳): PANDA:エージェントAIエンジニアによる一般的なビデオ異常検出を目指す
- Authors: Zhiwei Yang, Chen Gao, Mike Zheng Shou,
- Abstract要約: ビデオ異常検出(VAD)は、現実のシナリオの複雑で多様な性質のため、重要な課題である。
以前の方法は、新しいシナリオや見えない異常タイプに適用する場合、ドメイン固有のトレーニングデータと手動の調整に依存していた。
本研究では,MLLMに基づくエージェントAI技術者であるPANDAを提案する。
- 参考スコア(独自算出の注目度): 54.06481630066739
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video anomaly detection (VAD) is a critical yet challenging task due to the complex and diverse nature of real-world scenarios. Previous methods typically rely on domain-specific training data and manual adjustments when applying to new scenarios and unseen anomaly types, suffering from high labor costs and limited generalization. Therefore, we aim to achieve generalist VAD, i.e., automatically handle any scene and any anomaly types without training data or human involvement. In this work, we propose PANDA, an agentic AI engineer based on MLLMs. Specifically, we achieve PANDA by comprehensively devising four key capabilities: (1) self-adaptive scene-aware strategy planning, (2) goal-driven heuristic reasoning, (3) tool-augmented self-reflection, and (4) self-improving chain-of-memory. Concretely, we develop a self-adaptive scene-aware RAG mechanism, enabling PANDA to retrieve anomaly-specific knowledge for anomaly detection strategy planning. Next, we introduce a latent anomaly-guided heuristic prompt strategy to enhance reasoning precision. Furthermore, PANDA employs a progressive reflection mechanism alongside a suite of context-aware tools to iteratively refine decision-making in complex scenarios. Finally, a chain-of-memory mechanism enables PANDA to leverage historical experiences for continual performance improvement. Extensive experiments demonstrate that PANDA achieves state-of-the-art performance in multi-scenario, open-set, and complex scenario settings without training and manual involvement, validating its generalizable and robust anomaly detection capability. Code is released at https://github.com/showlab/PANDA.
- Abstract(参考訳): ビデオ異常検出(VAD)は、現実のシナリオの複雑で多様な性質のため、重要な課題である。
従来の手法は、通常、新しいシナリオや見えない異常タイプに適用する際に、ドメイン固有のトレーニングデータや手動調整に依存しており、高い労働コストと限定的な一般化に悩まされている。
そこで,本研究では,一般的なVAD,すなわち任意のシーンや異常なタイプを,データや人間の関与なしに自動的に処理することを目的としている。
本研究では,MLLMに基づくエージェントAI技術者であるPANDAを提案する。
具体的には,(1)自己適応型シーン認識型戦略計画,(2)目標駆動型ヒューリスティック推論,(3)ツール強化型自己回帰,(4)自己改善型メモリチェーンの4つの重要な機能を包括的に開発することで,PANDAを実現する。
具体的には,自己適応型シーン認識型RAG機構を開発し,PANDAが異常検出戦略計画のための異常固有知識を検索できるようにする。
次に、推論精度を高めるために、潜在異常誘導型ヒューリスティック・プロンプト戦略を導入する。
さらにPANDAは、複雑なシナリオにおける意思決定を反復的に洗練するために、一連のコンテキスト認識ツールとともにプログレッシブリフレクションメカニズムを採用している。
最後に、チェーン・オブ・メモリのメカニズムにより、PANDAは過去の経験を継続的なパフォーマンス改善に活用することができる。
広範にわたる実験により、PANDAは、訓練や手動による関与なしに、マルチシナリオ、オープンセット、複雑なシナリオ設定において最先端のパフォーマンスを達成し、その一般化可能で堅牢な異常検出能力を検証している。
コードはhttps://github.com/showlab/PANDA.comで公開されている。
関連論文リスト
- MemoryOut: Learning Principal Features via Multimodal Sparse Filtering Network for Semi-supervised Video Anomaly Detection [30.470777079947958]
再構成や予測に基づくビデオ異常検出(VAD)手法は2つの重要な課題に直面している。
強い一般化能力は、しばしば正確な再構築や異常事象の予測をもたらす。
低レベルの外観と動きの手がかりにのみ依存することは、複雑なシーンから異常な出来事における高レベルの意味を識別する能力を制限する。
論文 参考訳(メタデータ) (2025-06-03T07:14:57Z) - AssistPDA: An Online Video Surveillance Assistant for Video Anomaly Prediction, Detection, and Analysis [52.261173507177396]
AssistPDAは,Anomaly Prediction, Detection and Analysis (VAPDA) を単一のフレームワークに統合した,初のオンラインビデオ異常監視アシスタントである。
AssistPDAは、インタラクティブなユーザエンゲージメントをサポートしながら、ストリーミングビデオのリアルタイム推論を可能にする。
また,新しい事象レベルの異常予測タスクを導入し,異常が完全に展開される前に前向きな異常予測を可能にする。
論文 参考訳(メタデータ) (2025-03-27T18:30:47Z) - AnyAnomaly: Zero-Shot Customizable Video Anomaly Detection with LVLM [2.5988879420706095]
ビデオ異常検出(VAD)は、コンピュータビジョンにおけるビデオ分析と監視に不可欠である。
既存のVADモデルは学習された通常のパターンに依存しており、多様な環境に適用することは困難である。
本研究では,C-VAD技術とAnyAnomalyモデルを提案する。
論文 参考訳(メタデータ) (2025-03-06T14:52:34Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Learning Task Automata for Reinforcement Learning using Hidden Markov
Models [37.69303106863453]
本稿では,非マルコフ型タスク仕様を簡潔な有限状態タスクオートマトンとして学習するための新しいパイプラインを提案する。
我々は,その製品 MDP を部分的に観測可能な MDP として扱い,よく知られた Baum-Welch アルゴリズムを用いて隠れマルコフモデルを学習することで,仕様のオートマトンと環境の MDP からなるモデルである製品 MDP を学習する。
我々の学習タスクオートマトンはタスクをその構成サブタスクに分解し、RLエージェントが後に最適なポリシーを合成できる速度を改善する。
論文 参考訳(メタデータ) (2022-08-25T02:58:23Z) - MIST: Multiple Instance Self-Training Framework for Video Anomaly
Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。
mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。
本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文 参考訳(メタデータ) (2021-04-04T15:47:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。