Fugu-MT 論文翻訳(概要): From Explicit Rules to Implicit Reasoning in an Interpretable Violence Monitoring System

論文の概要: From Explicit Rules to Implicit Reasoning in an Interpretable Violence Monitoring System

arxiv url: http://arxiv.org/abs/2410.21991v3
Date: Sat, 02 Nov 2024 06:33:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.84656
Title: From Explicit Rules to Implicit Reasoning in an Interpretable Violence Monitoring System
Title（参考訳）: 解釈可能なビオレンスモニタリングシステムにおける明示的規則から暗黙的推論へ
Authors: Wen-Dong Jiang, Chih-Yung Chang, Hsiang-Chuan Chang, Diptendu Sinha Roy,
Abstract要約: 本稿では,ルールベース暴力監視(RuleVM)と呼ばれる,弱監視型暴力監視(WSVM)のための新しいパラダイムを提案する。提案したRe RuleVMは、イメージとテキストの異なる設計にデュアルブランチ構造を使用する。明示的なブランチにおける言語チャネル設計のために、提案したRe RuleCLIPは、最先端のYOLO-Worldモデルを使用して、ビデオフレーム内のオブジェクトやアクションを検出する。
参考スコア（独自算出の注目度）: 1.8274323268621635
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, research based on pre-trained models has demonstrated outstanding performance in violence surveillance tasks. However, these black-box systems face challenges regarding explainability during training and inference processes. An important question is how to incorporate explicit knowledge into these implicit models, thereby designing expert-driven and interpretable violence surveillance systems. This paper proposes a new paradigm for weakly supervised violence monitoring (WSVM) called Rule base Violence monitoring (RuleVM). The proposed RuleVM uses a dual-branch structure for different designs for images and text. One of the branches is called the implicit branch, which uses only visual features for coarse-grained binary classification. In this branch, image feature extraction is divided into two channels: one responsible for extracting scene frames and the other focusing on extracting actions. The other branch is called the explicit branch, which utilizes language-image alignment to perform fine-grained classification. For the language channel design in the explicit branch, the proposed RuleCLIP uses the state-of-the-art YOLO-World model to detect objects and actions in video frames, and association rules are identified through data mining methods as descriptions of the video. Leveraging the dual-branch architecture, RuleVM achieves interpretable coarse-grained and fine-grained violence surveillance. Extensive experiments were conducted on two commonly used benchmarks, and the results show that RuleCLIP achieved the best performance in both coarse-grained and fine-grained detection, significantly outperforming existing state-of-the-art methods. Moreover, interpretability experiments uncovered some interesting rules, such as the observation that as the number of people increases, the risk level of violent behavior also rises.
Abstract（参考訳）: 近年、事前訓練されたモデルに基づく研究は、暴力監視タスクにおいて顕著なパフォーマンスを示している。しかしながら、これらのブラックボックスシステムは、トレーニングと推論プロセスにおける説明可能性に関する課題に直面している。重要な疑問は、どのように明示的な知識をこれらの暗黙のモデルに組み込むことで、専門家主導で解釈可能な暴力監視システムを設計するかである。本稿では,ルールベース暴力監視(RuleVM)と呼ばれる,弱監視型暴力監視(WSVM)のための新しいパラダイムを提案する。提案したRe RuleVMは、イメージとテキストの異なる設計にデュアルブランチ構造を使用する。枝の1つは暗黙の枝と呼ばれ、粗い粒度のバイナリ分類にのみ視覚的特徴を使用する。このブランチでは、画像特徴抽出を、シーンフレームの抽出に責任を持つものと、アクションの抽出に焦点を当てたものとの2つのチャネルに分割する。別のブランチは明示的なブランチと呼ばれ、言語イメージアライメントを使用してきめ細かい分類を行う。明示的なブランチにおける言語チャネル設計において,提案手法は,映像フレーム内のオブジェクトやアクションを検出するために最先端のYOLO-Worldモデルを用いており,関連ルールはビデオの記述としてデータマイニング手法によって識別される。デュアルブランチアーキテクチャを活用することで、ルールVMは、解釈可能な粗大できめ細かな暴力監視を実現する。その結果,ルールCLIPは粗粒度と微細粒度の両方で最高の性能を達成し,既存の最先端手法よりも優れていたことが判明した。さらに、解釈可能性実験は、人の数が増加するにつれて暴力行動のリスクレベルも上昇するといった興味深いルールを明らかにした。

関連論文リスト

DGE-YOLO: Dual-Branch Gathering and Attention for Accurate UAV Object Detection [0.46040036610482665]
DGE-YOLOは、マルチモーダル情報を効果的に融合するために設計された拡張YOLOベースの検出フレームワークである。具体的には、モダリティ固有の特徴抽出のためのデュアルブランチアーキテクチャを導入し、モデルが赤外線と可視画像の両方を処理できるようにする。セマンティック表現をさらに強化するために,空間規模をまたいだ特徴学習を向上する効率的なマルチスケールアテンション(EMA)機構を提案する。
論文参考訳（メタデータ） (2025-06-29T14:19:18Z)
SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model [52.47816604709358]
ビデオ異常検出(VAD)は、ビデオ内の予期せぬ事象を識別することを目的としており、安全クリティカルドメインに広く応用されている。視覚言語モデル(VLM)は強力なマルチモーダル推論能力を示し、異常検出の新しい機会を提供している。 SlowFastVADは高速異常検出器と低速異常検出器を統合したハイブリッドフレームワークである。
論文参考訳（メタデータ） (2025-04-14T15:30:03Z)
Weakly-Supervised Anomaly Detection in Surveillance Videos Based on Two-Stream I3D Convolution Network [2.209921757303168]
本稿では,2ストリームインフレーション3D(I3D)畳み込みネットワークの適用により,異常検出分野の大幅な進歩を示す。我々の研究は、MIL(Multiple Instance Learning)に基づく弱教師付き学習フレームワークを実装することにより、分野を前進させる。本稿では、より適応性が高く、効率的で、コンテキスト対応の異常検出システムを提供することにより、コンピュータビジョンの分野に大きく貢献する。
論文参考訳（メタデータ） (2024-11-13T16:33:27Z)
ORCHID: Streaming Threat Detection over Versioned Provenance Graphs [11.783370157959968]
本稿では,リアルタイムイベントストリーム上でプロセスレベルの脅威を詳細に検出する新しいProv-IDSであるORCHIDを提案する。 ORCHIDは、バージョン付き前処理グラフのユニークな不変特性を利用して、グラフ全体を逐次RNNモデルに反復的に埋め込む。我々は、DARPA TCを含む4つの公開データセット上でORCHIDを評価し、ORCHIDが競合する分類性能を提供できることを示す。
論文参考訳（メタデータ） (2024-08-23T19:44:40Z)
Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2024-08-12T03:31:29Z)
DVF: Advancing Robust and Accurate Fine-Grained Image Retrieval with Retrieval Guidelines [67.44394651662738]
細粒度画像検索(FGIR)は、一般化を維持しながら視覚的に類似した物体を識別する視覚表現を学習することである。既存の方法は識別的特徴を生成することを提案するが、FGIRタスク自体の特異性を考えることは滅多にない。本稿では, サブカテゴリ固有の不一致を識別し, 効果的なFGIRモデルを設計するための識別的特徴を生成するための実践的ガイドラインを提案する。
論文参考訳（メタデータ） (2024-04-24T09:45:12Z)
LEAF: Unveiling Two Sides of the Same Coin in Semi-supervised Facial Expression Recognition [56.22672276092373]
半教師付き学習は、表情認識におけるラベル不足の課題に取り組むための有望なアプローチとして現れてきた。本稿では,表現関連表現と擬似ラベルを協調する統合フレームワークであるhierarchicaL dEcoupling And Fusingを提案する。 LEAFは最先端の半教師付きFER法より優れており,ラベル付きデータとラベルなしデータの両方を効果的に活用できることを示す。
論文参考訳（メタデータ） (2024-04-23T13:43:33Z)
DMAD: Dual Memory Bank for Real-World Anomaly Detection [90.97573828481832]
我々は、DMAD(Anomaly Detection)のための表現学習を強化したDual Memory Bankという新しいフレームワークを提案する。 DMADはデュアルメモリバンクを用いて特徴距離を計算し、正常パターンと異常パターンの間の特徴注意を計算している。 DMADをMVTec-ADおよびVisAデータセット上で評価した。
論文参考訳（メタデータ） (2024-03-19T02:16:32Z)
Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文参考訳（メタデータ） (2024-03-18T17:59:58Z)
Random resistive memory-based deep extreme point learning machine for unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文参考訳（メタデータ） (2023-12-14T09:46:16Z)
Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文参考訳（メタデータ） (2023-11-13T02:54:17Z)
A Coarse-to-Fine Pseudo-Labeling (C2FPL) Framework for Unsupervised Video Anomaly Detection [4.494911384096143]
ビデオにおける異常事象の検出は、監視などのアプリケーションにおいて重要な問題である。セグメントレベル(正規/異常)の擬似ラベルを生成する簡易な2段擬似ラベル生成フレームワークを提案する。提案した粗大な擬似ラベル生成器は、慎重に設計された階層的分割クラスタリングと統計的仮説テストを用いている。
論文参考訳（メタデータ） (2023-10-26T17:59:19Z)
VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。 VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文参考訳（メタデータ） (2023-08-22T14:58:36Z)
Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。 Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文参考訳（メタデータ） (2023-07-24T06:22:37Z)
Unsupervised Video Anomaly Detection with Diffusion Models Conditioned on Compact Motion Representations [17.816344808780965]
教師なしビデオ異常検出(VAD)問題とは、ビデオ内の各フレームをラベルにアクセスすることなく正常または異常に分類することである。提案手法は条件付き拡散モデルを用いて,事前学習したネットワークから入力データを抽出する。提案手法は,データ駆動しきい値を用いて,異常事象の指標として高い再構成誤差を考慮している。
論文参考訳（メタデータ） (2023-07-04T07:36:48Z)
Unsupervised Learning of Structured Representations via Closed-Loop Transcription [21.78655495464155]
本稿では,識別目的と生成目的の両方を兼ね備えた統一表現を学習するための教師なし手法を提案する。統一表現は、両方を持つことの相互利益を享受できることが示される。これらの構造化された表現は、最先端の教師なし識別表現に近い分類を可能にする。
論文参考訳（メタデータ） (2022-10-30T09:09:05Z)
Modality-Aware Contrastive Instance Learning with Self-Distillation for Weakly-Supervised Audio-Visual Violence Detection [14.779452690026144]
弱教師付き音声視覚学習のための自己蒸留(MACIL-SD)戦略を用いたモード認識型コントラスト学習を提案する。我々のフレームワークは、大規模なXD-Violenceデータセットにおいて、より少ない複雑さで従来の手法より優れています。
論文参考訳（メタデータ） (2022-07-12T12:42:21Z)
Let Invariant Rationale Discovery Inspire Graph Contrastive Learning [98.10268114789775]
ハイパフォーマンスな拡張は、インスタンス識別に関するアンカーグラフの健全な意味を保存すべきである。新たなフレームワーク Rationale-aware Graph Contrastive Learning (RGCL) を提案する。 RGCLは有理数生成器を使用して、グラフのインスタンス識別に関する健全な特徴を論理として明らかにし、対照的な学習のための有理数認識ビューを生成する。
論文参考訳（メタデータ） (2022-06-16T01:28:40Z)
Fine-grained Temporal Contrastive Learning for Weakly-supervised Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文参考訳（メタデータ） (2022-03-31T05:13:50Z)
Activation to Saliency: Forming High-Quality Labels for Unsupervised Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文参考訳（メタデータ） (2021-12-07T11:54:06Z)
Meta-UDA: Unsupervised Domain Adaptive Thermal Object Detection using Meta-Learning [64.92447072894055]
赤外線(IR)カメラは、照明条件や照明条件が悪ければ頑丈である。既存のUDA手法を改善するためのアルゴリズムメタ学習フレームワークを提案する。 KAISTおよびDSIACデータセットのための最先端熱検出器を作成した。
論文参考訳（メタデータ） (2021-10-07T02:28:18Z)
Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。 WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文参考訳（メタデータ） (2021-08-09T06:11:14Z)
An Efficient One-Class SVM for Anomaly Detection in the Internet of Things [25.78558553080511]
安全なモノのインターネット(IoT)デバイスは、重要なインフラストラクチャとインターネット全体に重大な脅威をもたらします。これらのデバイスから異常な行動を検出することは依然として重要ですワンクラスサポートベクターマシン(OCSVM)は、ノベルティ検出のための最先端のアプローチの1つです。
論文参考訳（メタデータ） (2021-04-22T15:59:56Z)
MIST: Multiple Instance Self-Training Framework for Video Anomaly Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。 mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文参考訳（メタデータ） (2021-04-04T15:47:14Z)
Learning and Evaluating Representations for Deep One-class Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文参考訳（メタデータ） (2020-11-04T23:33:41Z)
Unsupervised Video Anomaly Detection via Normalizing Flows with Implicit Latent Features [8.407188666535506]
既存のほとんどのメソッドはオートエンコーダを使用して、通常のビデオの再構築を学ぶ。本稿では2つのエンコーダが暗黙的に外観と動きの特徴をモデル化する構造である暗黙の2経路AE(ITAE)を提案する。通常のシーンの複雑な分布については,ITAE特徴量の正規密度推定を提案する。 NFモデルは暗黙的に学習された機能を通じて正常性を学ぶことでITAEのパフォーマンスを高める。
論文参考訳（メタデータ） (2020-10-15T05:02:02Z)
A Self-Reasoning Framework for Anomaly Detection Using Video-Level Labels [17.615297975503648]
監視ビデオにおける異常事象の検出は、画像およびビデオ処理コミュニティの間で困難かつ実践的な研究課題である。本稿では、ビデオレベルラベルのみを用いて自己推論方式で訓練されたディープニューラルネットワークに基づく、弱い教師付き異常検出フレームワークを提案する。提案するフレームワークは,UCF-crimeやShanghaiTech,Ped2など,公開されている実世界の異常検出データセット上で評価されている。
論文参考訳（メタデータ） (2020-08-27T02:14:15Z)
Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文参考訳（メタデータ） (2020-08-19T13:13:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。