論文の概要: Knowledge-Guided Textual Reasoning for Explainable Video Anomaly Detection via LLMs
- arxiv url: http://arxiv.org/abs/2511.07429v1
- Date: Thu, 30 Oct 2025 01:18:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:31.048782
- Title: Knowledge-Guided Textual Reasoning for Explainable Video Anomaly Detection via LLMs
- Title(参考訳): LLMによる説明可能なビデオ異常検出のための知識誘導型テキスト推論
- Authors: Hari Lee,
- Abstract要約: 弱教師付きビデオ異常検出のための言語駆動フレームワークTbVAD(Text-based Explainable Video Anomaly Detection)を提案する。
TbVADは言語によるビデオセマンティクスを表現し、解釈可能な知識に基づく推論を可能にする。
我々は、UCF-CrimeとXD-Violenceの2つの公開ベンチマークでTbVADを評価し、テキスト知識推論が解釈可能で信頼性の高い異常検出を提供することを示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce Text-based Explainable Video Anomaly Detection (TbVAD), a language-driven framework for weakly supervised video anomaly detection that performs anomaly detection and explanation entirely within the textual domain. Unlike conventional WSVAD models that rely on explicit visual features, TbVAD represents video semantics through language, enabling interpretable and knowledge-grounded reasoning. The framework operates in three stages: (1) transforming video content into fine-grained captions using a vision-language model, (2) constructing structured knowledge by organizing the captions into four semantic slots (action, object, context, environment), and (3) generating slot-wise explanations that reveal which semantic factors contribute most to the anomaly decision. We evaluate TbVAD on two public benchmarks, UCF-Crime and XD-Violence, demonstrating that textual knowledge reasoning provides interpretable and reliable anomaly detection for real-world surveillance scenarios.
- Abstract(参考訳): テキストベースの説明可能なビデオ異常検出(TbVAD)は,テキスト領域内での異常検出と説明を行う弱教師付きビデオ異常検出のための言語駆動フレームワークである。
明示的な視覚的特徴に依存する従来のWSVADモデルとは異なり、TbVADは言語によるビデオ意味論を表現し、解釈可能な知識に基づく推論を可能にする。
本フレームワークは,(1)映像コンテンツを視覚言語モデルを用いて微細なキャプションに変換すること,(2)キャプションを4つのセマンティックスロット(アクション,オブジェクト,コンテキスト,環境)に整理することで構造化された知識を構築すること,(3)どのセマンティック要素が異常決定に最も寄与しているかを明らかにするスロットワイズな説明を生成すること,の3段階からなる。
我々は、UCF-CrimeとXD-Violenceの2つの公開ベンチマークでTbVADを評価し、実際の監視シナリオに対してテキスト知識推論が解釈可能で信頼性の高い異常検出を提供することを示した。
関連論文リスト
- From Prediction to Explanation: Multimodal, Explainable, and Interactive Deepfake Detection Framework for Non-Expert Users [21.627851460651968]
DF-P2E(Deepfake: Prediction to Explanation)は、視覚的、意味的、物語的な説明層を統合して、ディープフェイク検出を解釈し、アクセス可能にする新しいフレームワークである。
現在最も多様なディープフェイクデータセットであるDF40ベンチマークで、フレームワークをインスタンス化し、評価しています。
実験により,Grad-CAMアクティベーションに適合した高品質な説明を提供しながら,競合検出性能を実証した。
論文 参考訳(メタデータ) (2025-08-11T03:55:47Z) - VidText: Towards Comprehensive Evaluation for Video Text Understanding [56.121054697977115]
VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。
さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。
ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
論文 参考訳(メタデータ) (2025-05-28T19:39:35Z) - Unlocking the Capabilities of Large Vision-Language Models for Generalizable and Explainable Deepfake Detection [18.125287697902813]
現在のLVLM(Large Vision-Language Models)は、マルチモーダルデータの理解において顕著な能力を示している。
深度検出のためのLVLMの潜在能力を解き放つ新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T03:20:03Z) - Quo Vadis, Anomaly Detection? LLMs and VLMs in the Spotlight [2.290956583394892]
ビデオ異常検出(VAD)は,大規模言語モデル(LLM)と視覚言語モデル(VLM)を統合することで,大幅な進歩をみせた。
本稿では,2024年における最先端LLM-/VLM法の詳細について述べる。
論文 参考訳(メタデータ) (2024-12-24T09:05:37Z) - Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。
提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-12T03:31:29Z) - Hierarchical Modular Network for Video Captioning [162.70349114104107]
ビデオ表現と言語意味論を3つのレベルからブリッジし,キャプションを生成する階層型モジュールネットワークを提案する。
提案手法は,MSVD 104.0% と MSR-VTT 51.5% の CIDEr スコアの2つのベンチマークにおいて,最先端のモデルに対して良好に動作する。
論文 参考訳(メタデータ) (2021-11-24T13:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。