論文の概要: Forward Consistency Learning with Gated Context Aggregation for Video Anomaly Detection
- arxiv url: http://arxiv.org/abs/2601.18135v1
- Date: Mon, 26 Jan 2026 04:35:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.678454
- Title: Forward Consistency Learning with Gated Context Aggregation for Video Anomaly Detection
- Title(参考訳): 映像異常検出のためのGated Context Aggregationを用いた前方一貫性学習
- Authors: Jiahao Lyu, Minghua Zhao, Xuewen Huang, Yifei Chen, Shuangli Du, Jing Hu, Cheng Shi, Zhiyong Lv,
- Abstract要約: ビデオ異常検出(VAD)は、リアルタイム監視システムにおける各種イベントの正常パターンからの偏差を測定することを目的としている。
既存のVAD手法の多くは、リソース制限されたエッジデバイスへの実現可能性を制限するため、極端な精度を追求するために大規模なモデルに依存している。
本稿では,Gatedコンテキストアグリゲーションを用いたフォワード整合学習を実現する軽量なVADモデルFoGAを紹介する。
- 参考スコア(独自算出の注目度): 17.79982215633934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a crucial element of public security, video anomaly detection (VAD) aims to measure deviations from normal patterns for various events in real-time surveillance systems. However, most existing VAD methods rely on large-scale models to pursue extreme accuracy, limiting their feasibility on resource-limited edge devices. Moreover, mainstream prediction-based VAD detects anomalies using only single-frame future prediction errors, overlooking the richer constraints from longer-term temporal forward information. In this paper, we introduce FoGA, a lightweight VAD model that performs Forward consistency learning with Gated context Aggregation, containing about 2M parameters and tailored for potential edge devices. Specifically, we propose a Unet-based method that performs feature extraction on consecutive frames to generate both immediate and forward predictions. Then, we introduce a gated context aggregation module into the skip connections to dynamically fuse encoder and decoder features at the same spatial scale. Finally, the model is jointly optimized with a novel forward consistency loss, and a hybrid anomaly measurement strategy is adopted to integrate errors from both immediate and forward frames for more accurate detection. Extensive experiments demonstrate the effectiveness of the proposed method, which substantially outperforms state-of-the-art competing methods, running up to 155 FPS. Hence, our FoGA achieves an excellent trade-off between performance and the efficiency metric.
- Abstract(参考訳): 公共セキュリティの重要な要素として、ビデオ異常検出(VAD)は、リアルタイム監視システムにおける各種イベントの正常パターンからの偏差を測定することを目的としている。
しかしながら、既存のVAD手法の多くは、リソース制限されたエッジデバイスへの実現可能性を制限するため、極端な精度を追求するために大規模なモデルに依存している。
さらに、主流予測に基づくVADは、長期の時間的前向き情報からよりリッチな制約を見越して、単一フレームの将来の予測エラーのみを使用して異常を検出する。
本稿では,Gatedコンテキストアグリゲーションを用いてフォワード整合学習を行う軽量なVADモデルFoGAについて紹介する。
具体的には、連続フレーム上で特徴抽出を行い、即時予測と前方予測の両方を生成するUnetベースの手法を提案する。
次に,同じ空間スケールで動的フューズエンコーダとデコーダの機能を実現するために,ゲート付きコンテキストアグリゲーションモジュールをスキップ接続に導入する。
最後に、モデルが新しい前方整合損失を伴って協調的に最適化され、直近フレームと前方フレームの両方の誤差を統合するハイブリッド異常測定戦略が採用され、より正確な検出が可能となる。
提案手法の有効性を実証し,155FPSまでの最先端競合手法を著しく上回る結果を得た。
したがって、我々のFoGAは、性能と効率の指標との優れたトレードオフを達成する。
関連論文リスト
- SynCast: Synergizing Contradictions in Precipitation Nowcasting via Diffusion Sequential Preference Optimization [62.958457694151384]
本研究では,大規模な言語モデルにおける人的フィードバックからの強化学習の成功を動機として,降水量の最適化を初めて導入する。
第一段階では、フレームワークはFARを減らすことに焦点を当て、誤報を効果的に抑えるためにモデルを訓練する。
論文 参考訳(メタデータ) (2025-10-22T16:11:22Z) - Scalable, Explainable and Provably Robust Anomaly Detection with One-Step Flow Matching [14.503330877000758]
Time-Conditioned Contraction Matching is a novel method for semi-supervised anomaly detection in tabular data。
これは、確率分布間の速度場を学習する最近の生成モデリングフレームワークであるフローマッチングにインスパイアされている。
ADBenchベンチマークの大規模な実験により、TCCMは検出精度と推論コストのバランスが良好であることが示されている。
論文 参考訳(メタデータ) (2025-10-21T06:26:38Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Anticipatory Fall Detection in Humans with Hybrid Directed Graph Neural Networks and Long Short-Term Memory [12.677218248209494]
本稿では,DGNN(Dynamic Graph Neural Networks)とLSTM(Long Short-Term Memory)ネットワークを組み合わせたハイブリッドモデルを提案する。
提案手法では,提案モデルに対する入力として,ビデオシーケンスから抽出したリアルタイム骨格特徴を用いる。
LSTMベースのネットワークは、次の時間のステップで人間の動きを予測し、転倒の早期発見を可能にする。
論文 参考訳(メタデータ) (2025-09-01T12:56:31Z) - ForeSight: Multi-View Streaming Joint Object Detection and Trajectory Forecasting [7.401111319849394]
ForeSightは、自動運転車における視覚に基づく3D知覚のための、新しい共同検出および予測フレームワークである。
ForeSightは最先端のパフォーマンスを達成し、EPAの54.9%を達成し、従来の手法を9.3%上回る結果となった。
論文 参考訳(メタデータ) (2025-08-09T20:18:10Z) - SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model [52.47816604709358]
ビデオ異常検出(VAD)は、ビデオ内の予期せぬ事象を識別することを目的としており、安全クリティカルドメインに広く応用されている。
視覚言語モデル(VLM)は強力なマルチモーダル推論能力を示し、異常検出の新しい機会を提供している。
SlowFastVADは高速異常検出器と低速異常検出器を統合したハイブリッドフレームワークである。
論文 参考訳(メタデータ) (2025-04-14T15:30:03Z) - Interactive Test-Time Adaptation with Reliable Spatial-Temporal Voxels for Multi-Modal Segmentation [56.70910056845503]
マルチモーダルテストタイム適応(MM-TTA)は、補完的なマルチモーダル入力をオンライン形式で活用することにより、ラベルのないターゲットドメインにモデルを適応させる。
従来のMM-TTA法は, 時間的不整合によるフレームワイドの不安定な予測と, 信頼度誘導の仮定に反する不正確な予測の2つの大きな限界に悩まされていた。
Latte++は、より情報的な幾何学的対応によって不安定なフレーム単位の予測をより抑制し、対話型テスト時間適応(ITTA)は、努力を伴わない人間のフィードバックを促進するフレキシブルなアドオンである。
論文 参考訳(メタデータ) (2024-03-11T06:56:08Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - Robust Unsupervised Video Anomaly Detection by Multi-Path Frame
Prediction [61.17654438176999]
本稿では,フレーム予測と適切な設計による新規で頑健な非教師付きビデオ異常検出手法を提案する。
提案手法は,CUHK Avenueデータセット上で88.3%のフレームレベルAUROCスコアを得る。
論文 参考訳(メタデータ) (2020-11-05T11:34:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。