Fugu-MT 論文翻訳(概要): A Lightweight Dual-Branch System for Weakly-Supervised Video Anomaly Detection on Consumer Edge Devices

論文の概要: A Lightweight Dual-Branch System for Weakly-Supervised Video Anomaly Detection on Consumer Edge Devices

arxiv url: http://arxiv.org/abs/2410.21991v7
Date: Fri, 06 Jun 2025 17:04:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-09 17:28:42.700368
Title: A Lightweight Dual-Branch System for Weakly-Supervised Video Anomaly Detection on Consumer Edge Devices
Title（参考訳）: 消費者エッジデバイスにおける弱スーパービジョンビデオ異常検出のための軽量デュアルブランチシステム
Authors: Wen-Dong Jiang, Chih-Yung Chang, Ssu-Chi Kuai, Diptendu Sinha Roy,
Abstract要約: ルールベースのビデオ異常検出(RuleVAD)は、コンシューマハードウェア上での高効率かつ低複雑さな脅威検出のために設計された、新しい軽量なシステムである。暗黙のブランチは、視覚的特徴を使って、高速で粗いバイナリ分類を行い、不要な処理を避けるために正常なアクティビティを効率的にフィルタリングする。マルチモーダルな明示的なブランチが引き継ぎ、データマイニングを適用して、シーンから解釈可能なテキストベースのアソシエーションルールを生成する。
参考スコア（独自算出の注目度）: 1.8274323268621635
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The growing demand for intelligent security in consumer electronics, such as smart home cameras and personal monitoring systems, is often hindered by the high computational cost and large model sizes of advanced AI. These limitations prevent the effective deployment of real-time Video Anomaly Detection (VAD) on resource-constrained edge devices. To bridge this gap, this paper introduces Rule-based Video Anomaly Detection (RuleVAD), a novel, lightweight system engineered for high-efficiency and low-complexity threat detection directly on consumer hardware. RuleVAD features an innovative decoupled dual-branch architecture to minimize computational load. An implicit branch uses visual features for rapid, coarse-grained binary classification, efficiently filtering out normal activity to avoid unnecessary processing. For potentially anomalous or complex events, a multimodal explicit branch takes over. This branch leverages YOLO-World to detect objects and applies data mining to generate interpretable, text-based association rules from the scene. By aligning these rules with visual data, RuleVAD achieves a more nuanced, fine-grained classification, significantly reducing the false alarms common in vision-only systems. Extensive experiments on the XD-Violence and UCF-Crime benchmark datasets show that RuleVAD achieves superior performance, surpassing existing state-of-the-art methods in both accuracy and speed. Crucially, the entire system is optimized for low-power operation and is fully deployable on an NVIDIA Jetson Nano board, demonstrating its practical feasibility for bringing advanced, real-time security monitoring to everyday consumer electronic devices.
Abstract（参考訳）: スマートホームカメラやパーソナルモニタリングシステムといった消費者電子製品のインテリジェントなセキュリティに対する需要は、高計算コストと高度なAIのモデルサイズによって妨げられていることが多い。これらの制限は、リソース制約のあるエッジデバイスにリアルタイムビデオ異常検出(VAD)を効果的に展開するのを防ぐ。このギャップを埋めるために,消費者ハードウェア上での高効率かつ低複雑さな脅威検出のために設計された,新しい軽量システムであるルールベースのビデオ異常検出(RuleVAD)を提案する。 RuleVADは、計算負荷を最小限に抑えるために、革新的な分離されたデュアルブランチアーキテクチャを備えている。暗黙のブランチは、視覚的特徴を使って、高速で粗いバイナリ分類を行い、不要な処理を避けるために正常なアクティビティを効率的にフィルタリングする。潜在的に異常なイベントや複雑なイベントに対して、マルチモーダルな明示的な分岐が引き継がれる。このブランチはYOLO-Worldを利用してオブジェクトを検出し、データマイニングを適用して、シーンから解釈可能なテキストベースのアソシエーションルールを生成する。これらのルールを視覚データと整合させることで、ルールVADはよりニュアンスできめ細かな分類を実現し、視覚のみのシステムに共通する誤報を著しく低減する。 XD-Violence と UCF-Crime ベンチマークデータセットの大規模な実験により、ルールVAD は精度と速度の両方で既存の最先端の手法を上回り、優れたパフォーマンスを実現していることが示された。重要なことに、システム全体が低消費電力操作に最適化されており、NVIDIA Jetson Nanoボードに完全にデプロイ可能である。

関連論文リスト

OS-Symphony: A Holistic Framework for Robust and Generalist Computer-Using Agent [58.07447442040785]
私たちはOS-Symphonyを紹介します。これは、堅牢な自動化のための2つの重要なイノベーションをコーディネートするOrchestratorを含む包括的なフレームワークです。結果は、OS-Symphonyが様々なモデルスケールで大幅なパフォーマンス向上をもたらすことを示した。
論文参考訳（メタデータ） (2026-01-12T17:55:51Z)
Real-Time Detection and Tracking of Foreign Object Intrusions in Power Systems via Feature-Based Edge Intelligence [4.60587070358843]
本稿では,電力伝送システムにおけるリアルタイム異物侵入(FOI)検出と追跡のための新しい枠組みを提案する。本フレームワークは,(1)高速で堅牢なオブジェクトローカライゼーションのためのYOLOv7セグメンテーションモデル,(2)三重項損失を訓練したConvNeXtベースの特徴抽出器,(3)特徴支援IoUトラッカーを統合した。スケーラブルなフィールドデプロイメントを実現するため、パイプラインは、混合精度推論を使用して、低コストのエッジハードウェアへのデプロイメントに最適化されている。
論文参考訳（メタデータ） (2025-09-16T17:17:03Z)
DGE-YOLO: Dual-Branch Gathering and Attention for Accurate UAV Object Detection [0.46040036610482665]
DGE-YOLOは、マルチモーダル情報を効果的に融合するために設計された拡張YOLOベースの検出フレームワークである。具体的には、モダリティ固有の特徴抽出のためのデュアルブランチアーキテクチャを導入し、モデルが赤外線と可視画像の両方を処理できるようにする。セマンティック表現をさらに強化するために,空間規模をまたいだ特徴学習を向上する効率的なマルチスケールアテンション(EMA)機構を提案する。
論文参考訳（メタデータ） (2025-06-29T14:19:18Z)
SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model [52.47816604709358]
ビデオ異常検出(VAD)は、ビデオ内の予期せぬ事象を識別することを目的としており、安全クリティカルドメインに広く応用されている。視覚言語モデル(VLM)は強力なマルチモーダル推論能力を示し、異常検出の新しい機会を提供している。 SlowFastVADは高速異常検出器と低速異常検出器を統合したハイブリッドフレームワークである。
論文参考訳（メタデータ） (2025-04-14T15:30:03Z)
Weakly-Supervised Anomaly Detection in Surveillance Videos Based on Two-Stream I3D Convolution Network [2.209921757303168]
本稿では,2ストリームインフレーション3D(I3D)畳み込みネットワークの適用により,異常検出分野の大幅な進歩を示す。我々の研究は、MIL(Multiple Instance Learning)に基づく弱教師付き学習フレームワークを実装することにより、分野を前進させる。本稿では、より適応性が高く、効率的で、コンテキスト対応の異常検出システムを提供することにより、コンピュータビジョンの分野に大きく貢献する。
論文参考訳（メタデータ） (2024-11-13T16:33:27Z)
ORCHID: Streaming Threat Detection over Versioned Provenance Graphs [11.783370157959968]
本稿では,リアルタイムイベントストリーム上でプロセスレベルの脅威を詳細に検出する新しいProv-IDSであるORCHIDを提案する。 ORCHIDは、バージョン付き前処理グラフのユニークな不変特性を利用して、グラフ全体を逐次RNNモデルに反復的に埋め込む。我々は、DARPA TCを含む4つの公開データセット上でORCHIDを評価し、ORCHIDが競合する分類性能を提供できることを示す。
論文参考訳（メタデータ） (2024-08-23T19:44:40Z)
Weakly Supervised Video Anomaly Detection and Localization with Spatio-Temporal Prompts [57.01985221057047]
本稿では、事前学習された視覚言語モデル(VLM)に基づく、弱教師付きビデオ異常検出および局所化のための時間的プロンプト埋め込み(WSVADL)を学習する新しい手法を提案する。提案手法は,WSVADLタスクの3つの公開ベンチマークにおける最先端性能を実現する。
論文参考訳（メタデータ） (2024-08-12T03:31:29Z)
DVF: Advancing Robust and Accurate Fine-Grained Image Retrieval with Retrieval Guidelines [67.44394651662738]
細粒度画像検索(FGIR)は、一般化を維持しながら視覚的に類似した物体を識別する視覚表現を学習することである。既存の方法は識別的特徴を生成することを提案するが、FGIRタスク自体の特異性を考えることは滅多にない。本稿では, サブカテゴリ固有の不一致を識別し, 効果的なFGIRモデルを設計するための識別的特徴を生成するための実践的ガイドラインを提案する。
論文参考訳（メタデータ） (2024-04-24T09:45:12Z)
LEAF: Unveiling Two Sides of the Same Coin in Semi-supervised Facial Expression Recognition [56.22672276092373]
半教師付き学習は、表情認識におけるラベル不足の課題に取り組むための有望なアプローチとして現れてきた。本稿では,表現関連表現と擬似ラベルを協調する統合フレームワークであるhierarchicaL dEcoupling And Fusingを提案する。 LEAFは最先端の半教師付きFER法より優れており,ラベル付きデータとラベルなしデータの両方を効果的に活用できることを示す。
論文参考訳（メタデータ） (2024-04-23T13:43:33Z)
DMAD: Dual Memory Bank for Real-World Anomaly Detection [90.97573828481832]
我々は、DMAD(Anomaly Detection)のための表現学習を強化したDual Memory Bankという新しいフレームワークを提案する。 DMADはデュアルメモリバンクを用いて特徴距離を計算し、正常パターンと異常パターンの間の特徴注意を計算している。 DMADをMVTec-ADおよびVisAデータセット上で評価した。
論文参考訳（メタデータ） (2024-03-19T02:16:32Z)
Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文参考訳（メタデータ） (2024-03-18T17:59:58Z)
Random resistive memory-based deep extreme point learning machine for unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文参考訳（メタデータ） (2023-12-14T09:46:16Z)
Open-Vocabulary Video Anomaly Detection [57.552523669351636]
監視の弱いビデオ異常検出(VAD)は、ビデオフレームが正常であるか異常であるかを識別するためにビデオレベルラベルを利用する際、顕著な性能を達成した。近年の研究は、より現実的な、オープンセットのVADに取り組み、異常や正常なビデオから見えない異常を検出することを目的としている。本稿ではさらに一歩前進し、未確認および未確認の異常を検知・分類するために訓練済みの大規模モデルを活用することを目的とした、オープン語彙ビデオ異常検出(OVVAD)について検討する。
論文参考訳（メタデータ） (2023-11-13T02:54:17Z)
A Coarse-to-Fine Pseudo-Labeling (C2FPL) Framework for Unsupervised Video Anomaly Detection [4.494911384096143]
ビデオにおける異常事象の検出は、監視などのアプリケーションにおいて重要な問題である。セグメントレベル(正規/異常)の擬似ラベルを生成する簡易な2段擬似ラベル生成フレームワークを提案する。提案した粗大な擬似ラベル生成器は、慎重に設計された階層的分割クラスタリングと統計的仮説テストを用いている。
論文参考訳（メタデータ） (2023-10-26T17:59:19Z)
VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection [58.47940430618352]
弱教師付きビデオ異常検出(WSVAD)のための新しいパラダイムであるVadCLIPを提案する。 VadCLIPは、CLIPの強度に関する視覚と言語の間のきめ細かい関連をフル活用している。本稿では,VadCLIPが粗粒度および細粒度 WSVAD の両面において最高の性能を発揮することを示す。
論文参考訳（メタデータ） (2023-08-22T14:58:36Z)
Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。 Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文参考訳（メタデータ） (2023-07-24T06:22:37Z)
Unsupervised Video Anomaly Detection with Diffusion Models Conditioned on Compact Motion Representations [17.816344808780965]
教師なしビデオ異常検出(VAD)問題とは、ビデオ内の各フレームをラベルにアクセスすることなく正常または異常に分類することである。提案手法は条件付き拡散モデルを用いて,事前学習したネットワークから入力データを抽出する。提案手法は,データ駆動しきい値を用いて,異常事象の指標として高い再構成誤差を考慮している。
論文参考訳（メタデータ） (2023-07-04T07:36:48Z)
Unsupervised Learning of Structured Representations via Closed-Loop Transcription [21.78655495464155]
本稿では,識別目的と生成目的の両方を兼ね備えた統一表現を学習するための教師なし手法を提案する。統一表現は、両方を持つことの相互利益を享受できることが示される。これらの構造化された表現は、最先端の教師なし識別表現に近い分類を可能にする。
論文参考訳（メタデータ） (2022-10-30T09:09:05Z)
Modality-Aware Contrastive Instance Learning with Self-Distillation for Weakly-Supervised Audio-Visual Violence Detection [14.779452690026144]
弱教師付き音声視覚学習のための自己蒸留(MACIL-SD)戦略を用いたモード認識型コントラスト学習を提案する。我々のフレームワークは、大規模なXD-Violenceデータセットにおいて、より少ない複雑さで従来の手法より優れています。
論文参考訳（メタデータ） (2022-07-12T12:42:21Z)
Let Invariant Rationale Discovery Inspire Graph Contrastive Learning [98.10268114789775]
ハイパフォーマンスな拡張は、インスタンス識別に関するアンカーグラフの健全な意味を保存すべきである。新たなフレームワーク Rationale-aware Graph Contrastive Learning (RGCL) を提案する。 RGCLは有理数生成器を使用して、グラフのインスタンス識別に関する健全な特徴を論理として明らかにし、対照的な学習のための有理数認識ビューを生成する。
論文参考訳（メタデータ） (2022-06-16T01:28:40Z)
Fine-grained Temporal Contrastive Learning for Weakly-supervised Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文参考訳（メタデータ） (2022-03-31T05:13:50Z)
Activation to Saliency: Forming High-Quality Labels for Unsupervised Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文参考訳（メタデータ） (2021-12-07T11:54:06Z)
Meta-UDA: Unsupervised Domain Adaptive Thermal Object Detection using Meta-Learning [64.92447072894055]
赤外線(IR)カメラは、照明条件や照明条件が悪ければ頑丈である。既存のUDA手法を改善するためのアルゴリズムメタ学習フレームワークを提案する。 KAISTおよびDSIACデータセットのための最先端熱検出器を作成した。
論文参考訳（メタデータ） (2021-10-07T02:28:18Z)
Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance Video [128.41392860714635]
Weakly-Supervised Snoma-Temporally Detection (WSSTAD) を監視ビデオに導入する。 WSSTADは異常事象を封止する時空間管(すなわち連続する境界ボックスのシーケンス)をローカライズすることを目的としている。本稿では,空間的・時間的領域に複数粒度を持つ入力提案を行うデュアルブランチネットワークを提案する。
論文参考訳（メタデータ） (2021-08-09T06:11:14Z)
An Efficient One-Class SVM for Anomaly Detection in the Internet of Things [25.78558553080511]
安全なモノのインターネット(IoT)デバイスは、重要なインフラストラクチャとインターネット全体に重大な脅威をもたらします。これらのデバイスから異常な行動を検出することは依然として重要ですワンクラスサポートベクターマシン(OCSVM)は、ノベルティ検出のための最先端のアプローチの1つです。
論文参考訳（メタデータ） (2021-04-22T15:59:56Z)
MIST: Multiple Instance Self-Training Framework for Video Anomaly Detection [76.80153360498797]
タスク固有の識別表現を効率的に洗練するためのマルチインスタンス自己学習フレームワーク(MIST)を開発した。 mistは1)スパース連続サンプリング戦略を適用し,より信頼性の高いクリップレベル擬似ラベルを生成するマルチインスタンス擬似ラベル生成器,2)自己誘導型注意強調特徴エンコーダで構成される。本手法は,上海技術におけるフレームレベルのAUC 94.83%の取得において,既存の教師付きおよび弱教師付き手法と同等あるいはそれ以上に機能する。
論文参考訳（メタデータ） (2021-04-04T15:47:14Z)
Learning and Evaluating Representations for Deep One-class Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文参考訳（メタデータ） (2020-11-04T23:33:41Z)
Unsupervised Video Anomaly Detection via Normalizing Flows with Implicit Latent Features [8.407188666535506]
既存のほとんどのメソッドはオートエンコーダを使用して、通常のビデオの再構築を学ぶ。本稿では2つのエンコーダが暗黙的に外観と動きの特徴をモデル化する構造である暗黙の2経路AE(ITAE)を提案する。通常のシーンの複雑な分布については,ITAE特徴量の正規密度推定を提案する。 NFモデルは暗黙的に学習された機能を通じて正常性を学ぶことでITAEのパフォーマンスを高める。
論文参考訳（メタデータ） (2020-10-15T05:02:02Z)
A Self-Reasoning Framework for Anomaly Detection Using Video-Level Labels [17.615297975503648]
監視ビデオにおける異常事象の検出は、画像およびビデオ処理コミュニティの間で困難かつ実践的な研究課題である。本稿では、ビデオレベルラベルのみを用いて自己推論方式で訓練されたディープニューラルネットワークに基づく、弱い教師付き異常検出フレームワークを提案する。提案するフレームワークは,UCF-crimeやShanghaiTech,Ped2など,公開されている実世界の異常検出データセット上で評価されている。
論文参考訳（メタデータ） (2020-08-27T02:14:15Z)
Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文参考訳（メタデータ） (2020-08-19T13:13:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。