論文の概要: Advancing Video Anomaly Detection: A Bi-Directional Hybrid Framework for Enhanced Single- and Multi-Task Approaches
- arxiv url: http://arxiv.org/abs/2504.14753v1
- Date: Sun, 20 Apr 2025 22:27:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-29 20:20:35.575267
- Title: Advancing Video Anomaly Detection: A Bi-Directional Hybrid Framework for Enhanced Single- and Multi-Task Approaches
- Title(参考訳): ビデオ異常検出の高速化:シングルタスクとマルチタスクの強化のための双方向ハイブリッドフレームワーク
- Authors: Guodong Shen, Yuqi Ouyang, Junru Lu, Yixuan Yang, Victor Sanchez,
- Abstract要約: 本稿では,通常のフレームに対する正確な予測と異常フレームに対する欠陥予測を生成するための効果的なハイブリッドフレームワークを提案する。
我々は,すべてのコンテキストフレームから特徴マップを効率的に関連付け,対象フレームに対する注意に基づく予測を生成する畳み込み時間変換器を開発した。
最終的に異常は、ターゲットフレームとそれに対応する予測との相違を精査することによって識別される。
- 参考スコア(独自算出の注目度): 16.96592682625058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the prevailing transition from single-task to multi-task approaches in video anomaly detection, we observe that many adopt sub-optimal frameworks for individual proxy tasks. Motivated by this, we contend that optimizing single-task frameworks can advance both single- and multi-task approaches. Accordingly, we leverage middle-frame prediction as the primary proxy task, and introduce an effective hybrid framework designed to generate accurate predictions for normal frames and flawed predictions for abnormal frames. This hybrid framework is built upon a bi-directional structure that seamlessly integrates both vision transformers and ConvLSTMs. Specifically, we utilize this bi-directional structure to fully analyze the temporal dimension by predicting frames in both forward and backward directions, significantly boosting the detection stability. Given the transformer's capacity to model long-range contextual dependencies, we develop a convolutional temporal transformer that efficiently associates feature maps from all context frames to generate attention-based predictions for target frames. Furthermore, we devise a layer-interactive ConvLSTM bridge that facilitates the smooth flow of low-level features across layers and time-steps, thereby strengthening predictions with fine details. Anomalies are eventually identified by scrutinizing the discrepancies between target frames and their corresponding predictions. Several experiments conducted on public benchmarks affirm the efficacy of our hybrid framework, whether used as a standalone single-task approach or integrated as a branch in a multi-task approach. These experiments also underscore the advantages of merging vision transformers and ConvLSTMs for video anomaly detection.
- Abstract(参考訳): ビデオ異常検出において、シングルタスクからマルチタスクへのアプローチが一般的であるにもかかわらず、多くの人が個別のプロキシタスクにサブ最適フレームワークを採用することが観察された。
これを受けて、シングルタスクフレームワークの最適化は、シングルタスクとマルチタスクの両方のアプローチを前進させることができると論じる。
そこで我々は,中間フレームの予測をプライマリプロキシタスクとして活用し,正常フレームの正確な予測と異常フレームの欠陥予測を生成するための効果的なハイブリッドフレームワークを提案する。
このハイブリッドフレームワークは、視覚変換器とConvLSTMの両方をシームレスに統合する双方向構造の上に構築されている。
具体的には、この双方向構造を用いて、前方方向と後方方向の両方のフレームを予測し、時間次元を完全に解析し、検出安定性を著しく向上させる。
長距離コンテキスト依存をモデル化する変換器の能力を考えると,すべてのコンテキストフレームから特徴マップを効率的に関連付け,対象フレームに対する注意に基づく予測を生成する畳み込み時間変換器を開発する。
さらに,レイヤ間の低レベル特徴のスムーズな流れを容易にする層間相互作用型ConvLSTMブリッジを考案し,より詳細な予測を行う。
最終的に異常は、ターゲットフレームとそれに対応する予測との相違を精査することによって識別される。
パブリックベンチマークで実施されたいくつかの実験は、スタンドアロンのシングルタスクアプローチとして使われるか、マルチタスクアプローチでブランチとして統合されるか、ハイブリッドフレームワークの有効性を確認した。
これらの実験は、ビデオ異常検出のための視覚変換器とConvLSTMの融合の利点も示している。
関連論文リスト
- DyTTP: Trajectory Prediction with Normalization-Free Transformers [0.0]
トランスフォーマーベースのアーキテクチャは、複雑な堅牢性依存関係をキャプチャする上で大きな可能性を証明している。
これらの課題に対処するための2つのアプローチを提案する。
まず、トランスフォーマーを促進する最新の方法であるDynamicTanh(DyT)をバックボーンに統合し、従来のレイヤ正規化を置き換える。
DyTを軌道予測タスクにデプロイする最初の作業です。
論文 参考訳(メタデータ) (2025-04-07T09:26:25Z) - BCTR: Bidirectional Conditioning Transformer for Scene Graph Generation [4.977568882858193]
シーングラフ生成(SGG)のためのセマンティックアライメント空間における新しい双方向コンディショニング因数分解法を提案する。
本稿では,双方向コンディショニングトランス (BCTR) を用いたエンド・ツー・エンドシーングラフ生成モデルを提案する。
BCTRは2つの重要なモジュールから構成されている。まず、双方向条件生成装置(BCG)は、エンティティと述語の間で多段階の対話的特徴拡張を行い、これらの予測間の相互強化を可能にする。
第二に、Random Feature Alignment(RFA)は、事前訓練されたモデルからマルチモーダルな知識を蒸留することによって特徴空間を正規化するために存在する。
論文 参考訳(メタデータ) (2024-07-26T13:02:48Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - A Hierarchical Hybrid Learning Framework for Multi-agent Trajectory
Prediction [4.181632607997678]
深層学習(DL)と強化学習(RL)の階層的ハイブリッドフレームワークを提案する。
DLの段階では、トラフィックシーンは、トランスフォーマースタイルのGNNが異種相互作用を符号化するために採用される複数の中間スケールの異種グラフに分割される。
RLの段階では、DLの段階で予測される重要な将来点を利用して、交通シーンを局所的なサブシーンに分割する。
論文 参考訳(メタデータ) (2023-03-22T02:47:42Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video
Grounding [35.73830796500975]
本稿では、時空間整合性認識変換器(STCAT)と呼ばれるエンドツーエンドのワンステージフレームワークを提案する。
このテンプレートを十分な映像認識下で生成するために,効率的なグローバルコンテキストモデリングのためのエンコーダ・デコーダアーキテクチャを提案する。
提案手法は,2つの挑戦的ビデオベンチマークにおいて,従来の最先端技術よりも明らかなマージンで優れていた。
論文 参考訳(メタデータ) (2022-09-27T11:13:04Z) - Collaborative Uncertainty Benefits Multi-Agent Multi-Modal Trajectory Forecasting [61.02295959343446]
この研究はまず、相互作用モジュールから生じる不確実性をモデル化する新しい概念であるコラボレーティブ不確実性(CU)を提案する。
我々は、回帰と不確実性推定の両方を行うために、元の置換同変不確かさ推定器を備えた一般的なCU対応回帰フレームワークを構築した。
提案するフレームワークを,プラグインモジュールとして現在のSOTAマルチエージェント軌道予測システムに適用する。
論文 参考訳(メタデータ) (2022-07-11T21:17:41Z) - Consistency Regularization for Deep Face Anti-Spoofing [69.70647782777051]
顔認証システムでは、顔認証(FAS)が重要な役割を担っている。
このエキサイティングな観察によって、異なる視点の特徴整合性を促進することが、FASモデルを促進するための有望な方法かもしれないと推測する。
FASにおけるEPCR(Embeddding-level and Prediction-level Consistency Regularization)とEPCR(Embeddding-level Consistency Regularization)を併用した。
論文 参考訳(メタデータ) (2021-11-24T08:03:48Z) - THOMAS: Trajectory Heatmap Output with learned Multi-Agent Sampling [2.424910201171407]
本稿では,高速かつ同時エージェントによる将来のヒートマップ推定のための統一モデルアーキテクチャを提案する。
シーン一貫性のある予測を生成することは、衝突のない軌道の単なる世代を越えている。
我々は、Interaction Multi-agent Prediction Challengeについて報告し、オンラインテストリーダーボードで1st$をランク付けした。
論文 参考訳(メタデータ) (2021-10-13T10:05:47Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Generalized Adversarially Learned Inference [42.40405470084505]
我々は、画像生成器とエンコーダを逆向きにトレーニングし、画像と潜時ベクトル対の2つの結合分布を一致させることにより、GAN内の潜時変数を推定する方法を開発した。
我々は、望まれるソリューションに関する事前または学習知識に基づいて、再構築、自己監督、その他の形式の監督に関する複数のフィードバック層を組み込んだ。
論文 参考訳(メタデータ) (2020-06-15T02:18:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。