論文の概要: From Explicit Rules to Implicit Reasoning in an Interpretable Violence Monitoring System
- arxiv url: http://arxiv.org/abs/2410.21991v3
- Date: Sat, 02 Nov 2024 06:33:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:43:27.043733
- Title: From Explicit Rules to Implicit Reasoning in an Interpretable Violence Monitoring System
- Title(参考訳): 解釈可能なビオレンスモニタリングシステムにおける明示的規則から暗黙的推論へ
- Authors: Wen-Dong Jiang, Chih-Yung Chang, Hsiang-Chuan Chang, Diptendu Sinha Roy,
- Abstract要約: 本稿では,ルールベース暴力監視(RuleVM)と呼ばれる,弱監視型暴力監視(WSVM)のための新しいパラダイムを提案する。
提案したRe RuleVMは、イメージとテキストの異なる設計にデュアルブランチ構造を使用する。
明示的なブランチにおける言語チャネル設計のために、提案したRe RuleCLIPは、最先端のYOLO-Worldモデルを使用して、ビデオフレーム内のオブジェクトやアクションを検出する。
- 参考スコア(独自算出の注目度): 1.8274323268621635
- License:
- Abstract: Recently, research based on pre-trained models has demonstrated outstanding performance in violence surveillance tasks. However, these black-box systems face challenges regarding explainability during training and inference processes. An important question is how to incorporate explicit knowledge into these implicit models, thereby designing expert-driven and interpretable violence surveillance systems. This paper proposes a new paradigm for weakly supervised violence monitoring (WSVM) called Rule base Violence monitoring (RuleVM). The proposed RuleVM uses a dual-branch structure for different designs for images and text. One of the branches is called the implicit branch, which uses only visual features for coarse-grained binary classification. In this branch, image feature extraction is divided into two channels: one responsible for extracting scene frames and the other focusing on extracting actions. The other branch is called the explicit branch, which utilizes language-image alignment to perform fine-grained classification. For the language channel design in the explicit branch, the proposed RuleCLIP uses the state-of-the-art YOLO-World model to detect objects and actions in video frames, and association rules are identified through data mining methods as descriptions of the video. Leveraging the dual-branch architecture, RuleVM achieves interpretable coarse-grained and fine-grained violence surveillance. Extensive experiments were conducted on two commonly used benchmarks, and the results show that RuleCLIP achieved the best performance in both coarse-grained and fine-grained detection, significantly outperforming existing state-of-the-art methods. Moreover, interpretability experiments uncovered some interesting rules, such as the observation that as the number of people increases, the risk level of violent behavior also rises.
- Abstract(参考訳): 近年、事前訓練されたモデルに基づく研究は、暴力監視タスクにおいて顕著なパフォーマンスを示している。
しかしながら、これらのブラックボックスシステムは、トレーニングと推論プロセスにおける説明可能性に関する課題に直面している。
重要な疑問は、どのように明示的な知識をこれらの暗黙のモデルに組み込むことで、専門家主導で解釈可能な暴力監視システムを設計するかである。
本稿では,ルールベース暴力監視(RuleVM)と呼ばれる,弱監視型暴力監視(WSVM)のための新しいパラダイムを提案する。
提案したRe RuleVMは、イメージとテキストの異なる設計にデュアルブランチ構造を使用する。
枝の1つは暗黙の枝と呼ばれ、粗い粒度のバイナリ分類にのみ視覚的特徴を使用する。
このブランチでは、画像特徴抽出を、シーンフレームの抽出に責任を持つものと、アクションの抽出に焦点を当てたものとの2つのチャネルに分割する。
別のブランチは明示的なブランチと呼ばれ、言語イメージアライメントを使用してきめ細かい分類を行う。
明示的なブランチにおける言語チャネル設計において,提案手法は,映像フレーム内のオブジェクトやアクションを検出するために最先端のYOLO-Worldモデルを用いており,関連ルールはビデオの記述としてデータマイニング手法によって識別される。
デュアルブランチアーキテクチャを活用することで、ルールVMは、解釈可能な粗大できめ細かな暴力監視を実現する。
その結果,ルールCLIPは粗粒度と微細粒度の両方で最高の性能を達成し,既存の最先端手法よりも優れていたことが判明した。
さらに、解釈可能性実験は、人の数が増加するにつれて暴力行動のリスクレベルも上昇するといった興味深いルールを明らかにした。
関連論文リスト
- DVF: Advancing Robust and Accurate Fine-Grained Image Retrieval with Retrieval Guidelines [67.44394651662738]
細粒度画像検索(FGIR)は、一般化を維持しながら視覚的に類似した物体を識別する視覚表現を学習することである。
既存の方法は識別的特徴を生成することを提案するが、FGIRタスク自体の特異性を考えることは滅多にない。
本稿では, サブカテゴリ固有の不一致を識別し, 効果的なFGIRモデルを設計するための識別的特徴を生成するための実践的ガイドラインを提案する。
論文 参考訳(メタデータ) (2024-04-24T09:45:12Z) - LEAF: Unveiling Two Sides of the Same Coin in Semi-supervised Facial Expression Recognition [56.22672276092373]
半教師付き学習は、表情認識におけるラベル不足の課題に取り組むための有望なアプローチとして現れてきた。
本稿では,表現関連表現と擬似ラベルを協調する統合フレームワークであるhierarchicaL dEcoupling And Fusingを提案する。
LEAFは最先端の半教師付きFER法より優れており,ラベル付きデータとラベルなしデータの両方を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2024-04-23T13:43:33Z) - A Coarse-to-Fine Pseudo-Labeling (C2FPL) Framework for Unsupervised
Video Anomaly Detection [4.494911384096143]
ビデオにおける異常事象の検出は、監視などのアプリケーションにおいて重要な問題である。
セグメントレベル(正規/異常)の擬似ラベルを生成する簡易な2段擬似ラベル生成フレームワークを提案する。
提案した粗大な擬似ラベル生成器は、慎重に設計された階層的分割クラスタリングと統計的仮説テストを用いている。
論文 参考訳(メタデータ) (2023-10-26T17:59:19Z) - Prov2vec: Learning Provenance Graph Representation for Unsupervised APT Detection [2.07180164747172]
できるだけ早く、先進的永続的脅威を検出する必要がある。
本稿では,攻撃者の行動を検出するエンタープライズホストの行動を継続的に監視するシステムであるProv2Vecを提案する。
論文 参考訳(メタデータ) (2023-10-02T01:38:13Z) - Unsupervised Learning of Structured Representations via Closed-Loop
Transcription [21.78655495464155]
本稿では,識別目的と生成目的の両方を兼ね備えた統一表現を学習するための教師なし手法を提案する。
統一表現は、両方を持つことの相互利益を享受できることが示される。
これらの構造化された表現は、最先端の教師なし識別表現に近い分類を可能にする。
論文 参考訳(メタデータ) (2022-10-30T09:09:05Z) - Let Invariant Rationale Discovery Inspire Graph Contrastive Learning [98.10268114789775]
ハイパフォーマンスな拡張は、インスタンス識別に関するアンカーグラフの健全な意味を保存すべきである。
新たなフレームワーク Rationale-aware Graph Contrastive Learning (RGCL) を提案する。
RGCLは有理数生成器を使用して、グラフのインスタンス識別に関する健全な特徴を論理として明らかにし、対照的な学習のための有理数認識ビューを生成する。
論文 参考訳(メタデータ) (2022-06-16T01:28:40Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance
Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。
WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。
本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-09T06:11:14Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。