論文の概要: Uncertainty-Weighted Image-Event Multimodal Fusion for Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2505.02393v2
- Date: Thu, 08 May 2025 09:44:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 13:13:47.802894
- Title: Uncertainty-Weighted Image-Event Multimodal Fusion for Video Anomaly Detection
- Title(参考訳): ビデオ異常検出のための不確かさ重み付き画像イベントマルチモーダルフュージョン
- Authors: Sungheon Jeong, Jihong Park, Mohsen Imani,
- Abstract要約: Image-Event Fusion for Video Anomaly Detection (IEF-VAD)は、RGBビデオから直接イベント表現を合成するフレームワークである。
IEF-VADは、複数の実世界の異常検出ベンチマークにまたがって、新しい技術状態を設定する。
- 参考スコア(独自算出の注目度): 13.866203856820759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing video anomaly detectors rely solely on RGB frames, which lack the temporal resolution needed to capture abrupt or transient motion cues, key indicators of anomalous events. To address this limitation, we propose Image-Event Fusion for Video Anomaly Detection (IEF-VAD), a framework that synthesizes event representations directly from RGB videos and fuses them with image features through a principled, uncertainty-aware process. The system (i) models heavy-tailed sensor noise with a Student`s-t likelihood, deriving value-level inverse-variance weights via a Laplace approximation; (ii) applies Kalman-style frame-wise updates to balance modalities over time; and (iii) iteratively refines the fused latent state to erase residual cross-modal noise. Without any dedicated event sensor or frame-level labels, IEF-VAD sets a new state of the art across multiple real-world anomaly detection benchmarks. These findings highlight the utility of synthetic event representations in emphasizing motion cues that are often underrepresented in RGB frames, enabling accurate and robust video understanding across diverse applications without requiring dedicated event sensors. Code and models are available at https://github.com/EavnJeong/IEF-VAD.
- Abstract(参考訳): 既存のビデオ異常検出装置の多くはRGBフレームのみに依存しており、異常事象の指標である突発的または過渡的な動きの手がかりを捉えるのに必要な時間分解能が欠如している。
この制限に対処するために、RGBビデオから直接イベント表現を合成し、原則化された不確実性認識プロセスを通じて画像特徴と融合するフレームワークである、画像イベント融合ビデオ異常検出(IEF-VAD)を提案する。
制度
一 学生の確率で重み付きセンサノイズをモデル化し、ラプラス近似による価値レベルの逆分散重みを導出すること。
(二)時間とともにモダリティのバランスをとるためにカルマン式フレームワイド更新を適用する。
三 残余のクロスモーダルノイズを消すため、融解潜時状態を反復的に洗練させる。
専用のイベントセンサやフレームレベルのラベルがなければ、EF-VADは複数の実世界の異常検出ベンチマークにまたがって、最先端の新たなベンチマークを設定できる。
これらの知見は、RGBフレームでしばしば表現されていない動きキューを強調するための合成イベント表現の有用性を強調し、専用のイベントセンサを必要とせず、多様なアプリケーション間で正確な、堅牢なビデオ理解を可能にする。
コードとモデルはhttps://github.com/EavnJeong/IEF-VAD.comで公開されている。
関連論文リスト
- EventVAD: Training-Free Event-Aware Video Anomaly Detection [19.714436150837148]
EventVADはイベント対応のビデオ異常検出フレームワークである。
調整された動的グラフアーキテクチャとマルチモーダル・イベント推論を組み合わせる。
トレーニング不要な環境での最先端(SOTA)を実現し、7B以上のMLLMを使用する強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-04-17T16:59:04Z) - Inter-event Interval Microscopy for Event Cameras [52.05337480169517]
イベントカメラは、革新的なバイオインスパイアされたセンサーであり、強度を直接知覚するのではなく、強度の変化を感知することで従来のカメラとは異なる。
蛍光顕微鏡における静的および動的シーンの静的なイベントカメラを用いたイベント・ツー・インテンシティ変換を実現する。
我々は,ハイダイナミックレンジや高速シナリオなど,様々な場面でIEIMatデータセットを収集した。
論文 参考訳(メタデータ) (2025-04-07T11:05:13Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - FlexEvent: Event Camera Object Detection at Arbitrary Frequencies [45.82637829492951]
イベントカメラは、動的環境におけるリアルタイムの知覚に相容れないアドバンテージを提供する。
既存のイベントベースのオブジェクト検出方法は固定周波数パラダイムによって制限される。
任意の周波数で検出できる新しいイベントカメラオブジェクト検出フレームワークFlexEventを提案する。
論文 参考訳(メタデータ) (2024-12-09T17:57:14Z) - Event-based Continuous Color Video Decompression from Single Frames [36.4263932473053]
本研究では,静止RGB画像とイベントカメラストリームから連続映像を生成する新しい手法であるContinuityCamを提案する。
提案手法は、連続した長距離動きモデリングとニューラル合成モデルを組み合わせることで、イベント内の任意のタイミングでフレーム予測を可能にする。
論文 参考訳(メタデータ) (2023-11-30T18:59:23Z) - Chasing Day and Night: Towards Robust and Efficient All-Day Object Detection Guided by an Event Camera [8.673063170884591]
EOLOは、RGBとイベントモダリティの両方を融合させることで、堅牢で効率的な全日検出を実現する、新しいオブジェクト検出フレームワークである。
我々のEOLOフレームワークは、イベントの非同期特性を効率的に活用するために、軽量スパイキングニューラルネットワーク(SNN)に基づいて構築されている。
論文 参考訳(メタデータ) (2023-09-17T15:14:01Z) - Revisiting Event-based Video Frame Interpolation [49.27404719898305]
ダイナミックビジョンセンサーやイベントカメラは、ビデオフレームに豊富な補完情報を提供する。
イベントからの光の流れを推定することは、RGB情報より間違いなく困難である。
イベントベースの中間フレーム合成を複数の単純化段階において漸進的に行う分割・対数戦略を提案する。
論文 参考訳(メタデータ) (2023-07-24T06:51:07Z) - Self-Supervised Scene Dynamic Recovery from Rolling Shutter Images and
Events [63.984927609545856]
任意の時間間隔間での画素単位のダイナミックさを予測するために,イベントベース/イントラフレーム補償器(E-IC)を提案する。
提案手法は,実世界のシナリオにおけるイベントベースRS2GSインバージョンにおいて,顕著な性能を示す。
論文 参考訳(メタデータ) (2023-04-14T05:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。