Fugu-MT 論文翻訳(概要): Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

論文の概要: Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild

arxiv url: http://arxiv.org/abs/2603.04727v1
Date: Thu, 05 Mar 2026 02:00:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.027346
Title: Are Multimodal LLMs Ready for Surveillance? A Reality Check on Zero-Shot Anomaly Detection in the Wild
Title（参考訳）: マルチモーダルLLMは監視対応可能か? 野生におけるゼロショット異常検出の現実的検証
Authors: Shanle Yao, Armin Danesh Pazho, Narges Rashvand, Hamed Tabkhi,
Abstract要約: MLLM(Multimodal large language model)は、ビデオ理解において優れた汎用能力を誇示している。本研究では,上海技術とCHADベンチマークを用いて,最先端のMLLMの評価を行う。本研究では,迅速な特異性と時間窓の長さ(1s--3s)が性能に与える影響について検討し,高精度なリコールトレードオフに着目した。
参考スコア（独自算出の注目度）: 9.42132060759461
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal large language models (MLLMs) have demonstrated impressive general competence in video understanding, yet their reliability for real-world Video Anomaly Detection (VAD) remains largely unexplored. Unlike conventional pipelines relying on reconstruction or pose-based cues, MLLMs enable a paradigm shift: treating anomaly detection as a language-guided reasoning task. In this work, we systematically evaluate state-of-the-art MLLMs on the ShanghaiTech and CHAD benchmarks by reformulating VAD as a binary classification task under weak temporal supervision. We investigate how prompt specificity and temporal window lengths (1s--3s) influence performance, focusing on the precision--recall trade-off. Our findings reveal a pronounced conservative bias in zero-shot settings; while models exhibit high confidence, they disproportionately favor the 'normal' class, resulting in high precision but a recall collapse that limits practical utility. We demonstrate that class-specific instructions can significantly shift this decision boundary, improving the peak F1-score on ShanghaiTech from 0.09 to 0.64, yet recall remains a critical bottleneck. These results highlight a significant performance gap for MLLMs in noisy environments and provide a foundation for future work in recall-oriented prompting and model calibration for open-world surveillance, which demands complex video understanding and reasoning.
Abstract（参考訳）: マルチモーダル大言語モデル (MLLM) は、ビデオ理解において、目覚ましい一般的な能力を示しているが、実際のビデオ異常検出(VAD)に対する信頼性は、まだ明らかにされていない。再構築やポーズベースのキューに依存する従来のパイプラインとは異なり、MLLMは、異常検出を言語誘導推論タスクとして扱うというパラダイムシフトを可能にする。本研究では,VADを時間的監督の弱い二項分類タスクとして再編成することにより,上海技術とCHADベンチマークの最先端MLLMを体系的に評価する。本研究では,迅速な特異性と時間窓の長さ(1s--3s)が性能に与える影響について検討し,高精度なリコールトレードオフに着目した。モデルでは高い信頼度を示す一方で、「正常」クラスを不均等に好んでおり、精度は高いが、実用性に制限のあるリコール崩壊をもたらす。我々は、クラス固有の命令がこの決定境界を著しくシフトし、上海技術におけるF1スコアのピークを0.09から0.64に改善できることを実証するが、リコールは依然として重要なボトルネックである。これらの結果は,複雑な映像理解と推論を必要とするオープンワールド監視のためのリコール指向のプロンプトとモデルキャリブレーションにおいて,MLLMのノイズの多い環境における重要なパフォーマンスギャップを浮き彫りにした。

関連論文リスト

Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文参考訳（メタデータ） (2026-02-27T13:48:50Z)
VideoVeritas: AI-Generated Video Detection via Perception Pretext Reinforcement Learning [42.22791607763693]
VideoVeritasは、きめ細かい認識と事実に基づく推論のためのフレームワークだ。共同知覚選好と知覚Pretext Reinforcement Learningが使用される。
論文参考訳（メタデータ） (2026-02-09T16:00:01Z)
Contamination Detection for VLMs using Multi-Modal Semantic Perturbation [73.76465227729818]
オープンソースのVision-Language Models (VLM)は、ベンチマークタスクで最先端のパフォーマンスを達成した。プレトレーニングコーパスは,テストセットリークによるパフォーマンスの低下という,実践者とユーザ双方にとって重要な懸念を提起する。既存の検出手法が不整合性を示すか,不整合性を示すかを示す。マルチモーダルなセマンティック摂動に基づく,新しい簡易かつ効果的な検出法を提案する。
論文参考訳（メタデータ） (2025-11-05T18:59:52Z)
HiProbe-VAD: Video Anomaly Detection via Hidden States Probing in Tuning-Free Multimodal LLMs [8.18063726177317]
ビデオ異常検出(VAD)は、ビデオシーケンス内の通常のパターンから逸脱を識別し、特定することを目的としている。本稿では,VADのための事前学習型マルチモーダル大言語モデル(MLLM)を,微調整を必要とせずに活用する新しいフレームワークであるHiProbe-VADを提案する。
論文参考訳（メタデータ） (2025-07-23T10:41:46Z)
Let's Think in Two Steps: Mitigating Agreement Bias in MLLMs with Self-Grounded Verification [17.67273082468732]
検証 -- エージェントの振る舞いに報酬を割り当てる関数 -- は、数学やボードゲームのような分野におけるAIの進歩の鍵となっている。我々は,Multimodal Large Language Models (MLLM) を,Webナビゲーション,コンピュータ利用,ロボット操作におけるエージェントトラジェクトリの検証手段として評価した。本稿では,MLLMの知識と推論をより効果的に活用する軽量な手法である自己検証(SGV)を提案する。
論文参考訳（メタデータ） (2025-07-15T18:50:29Z)
Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。 LLMは現実世界の脆弱性を検出するのに本当に効果的か? 本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文参考訳（メタデータ） (2025-04-18T05:32:47Z)
Video SimpleQA: Towards Factuality Evaluation in Large Video Language Models [77.96693360763925]
Video SimpleQAは、ビデオコンテキストにおける事実性評価に適した最初の包括的なベンチマークである。我々の研究は、既存のビデオベンチマークとは以下の重要な特徴によって異なる: 知識: ビデオの明示的な物語を超えた外部知識の統合を要求する。短い形式の決定的な答え: 回答は、最小のスコアリング分散を持つ短いフォーマットで、曖昧で決定的に正しいものとして作成されます。
論文参考訳（メタデータ） (2025-03-24T17:46:09Z)
SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文参考訳（メタデータ） (2025-02-24T07:15:05Z)
Evaluating Uncertainty-based Failure Detection for Closed-Loop LLM Planners [10.746821861109176]
大型言語モデル(LLM)は、ロボットタスクのためのゼロショットタスクプランナーとして、目覚ましいパフォーマンスをみせている。しかし、以前の研究のオープンループの性質は、LSMベースの計画がエラーを起こしやすく、脆弱である。本研究では,不確実性に基づくMLLM故障検出装置をベースとした,閉ループLLMに基づくKnowLoop計画のためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-01T12:52:06Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文参考訳（メタデータ） (2023-08-17T02:53:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。