論文の概要: A brief introduction to a framework named Multilevel Guidance-Exploration Network
- arxiv url: http://arxiv.org/abs/2312.04119v3
- Date: Sun, 9 Jun 2024 07:12:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 04:28:28.897087
- Title: A brief introduction to a framework named Multilevel Guidance-Exploration Network
- Title(参考訳): Multilevel Guidance-Exploration Network というフレームワークの紹介
- Authors: Guoqing Yang, Zhiming Luo, Jianzhe Gao, Yingxin Lai, Kun Yang, Yifan He, Shaozi Li,
- Abstract要約: 本稿では,Multilevel Guidance-Exploration Network(MGENet)と呼ばれる新しいフレームワークを提案する。
具体的には、まず骨格キーポイントを入力とし、RGBエンコーダを誘導する学習済み正規化フローを用いて、未知のRGBフレームを入力として取り込んで、動作遅延特徴を探索する。
提案手法は,上海技術とUBnormalデータセット上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 23.794585834150983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human behavior anomaly detection aims to identify unusual human actions, playing a crucial role in intelligent surveillance and other areas. The current mainstream methods still adopt reconstruction or future frame prediction techniques. However, reconstructing or predicting low-level pixel features easily enables the network to achieve overly strong generalization ability, allowing anomalies to be reconstructed or predicted as effectively as normal data. Different from their methods, inspired by the Student-Teacher Network, we propose a novel framework called the Multilevel Guidance-Exploration Network(MGENet), which detects anomalies through the difference in high-level representation between the Guidance and Exploration network. Specifically, we first utilize the pre-trained Normalizing Flow that takes skeletal keypoints as input to guide an RGB encoder, which takes unmasked RGB frames as input, to explore motion latent features. Then, the RGB encoder guides the mask encoder, which takes masked RGB frames as input, to explore the latent appearance feature. Additionally, we design a Behavior-Scene Matching Module(BSMM) to detect scene-related behavioral anomalies. Extensive experiments demonstrate that our proposed method achieves state-of-the-art performance on ShanghaiTech and UBnormal datasets.
- Abstract(参考訳): 人間の行動異常検出は、知的監視やその他の領域において重要な役割を果たす、異常な人間の行動を特定することを目的としている。
現在の主流の手法では、再構築や将来のフレーム予測技術が採用されている。
しかし、低レベルのピクセルの特徴を再構成したり予測したりすることで、ネットワークが過度に強力な一般化能力を達成し、異常を再構築したり、通常のデータと同じくらい効果的に予測することができる。
学生-教師ネットワークにインスパイアされたこれらの手法とは違って,多段階誘導探索ネットワーク(MGENet)と呼ばれる,誘導探索ネットワークと探索ネットワークの高レベル表現の違いから異常を検出する新しいフレームワークを提案する。
具体的には、まず骨格キーポイントを入力とし、RGBエンコーダを誘導する学習済み正規化フローを用いて、未知のRGBフレームを入力として取り込んで、動作遅延特徴を探索する。
次に、RGBエンコーダはマスク付きRGBフレームを入力として用いたマスクエンコーダをガイドし、潜伏した外観特徴を探索する。
さらに、シーン関連行動異常を検出するための行動シーンマッチングモジュール(BSMM)を設計する。
提案手法は上海TechおよびUBnormalデータセット上での最先端性能を実現することを実証した。
関連論文リスト
- UniForensics: Face Forgery Detection via General Facial Representation [60.5421627990707]
高レベルの意味的特徴は摂動の影響を受けにくく、フォージェリー固有の人工物に限らないため、より強い一般化がある。
我々は、トランスフォーマーベースのビデオネットワークを活用する新しいディープフェイク検出フレームワークUniForensicsを導入し、顔の豊かな表現のためのメタファンクショナルな顔分類を行う。
論文 参考訳(メタデータ) (2024-07-26T20:51:54Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness [2.341385717236931]
本稿では,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。
我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。
当社のHiDAnetは最先端の手法よりも大きなマージンで良好に動作します。
論文 参考訳(メタデータ) (2023-01-18T10:00:59Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Self-Supervised Masked Convolutional Transformer Block for Anomaly
Detection [122.4894940892536]
本稿では, 自己監督型マスク型畳み込み変圧器ブロック (SSMCTB) について述べる。
本研究では,従来の自己教師型予測畳み込み抑止ブロック(SSPCAB)を3次元マスク付き畳み込み層,チャンネルワイドアテンション用トランスフォーマー,およびハマーロスに基づく新たな自己教師型目標を用いて拡張する。
論文 参考訳(メタデータ) (2022-09-25T04:56:10Z) - Multimodal Graph Learning for Deepfake Detection [10.077496841634135]
既存のディープフェイク検出器は、堅牢性と一般化を達成する上でいくつかの課題に直面している。
本稿では,マルチモーダルグラフ学習(MGL)という新しいフレームワークを提案する。
提案手法は,ディープフェイク検出のための特徴を効果的に識別し,活用することを目的としている。
論文 参考訳(メタデータ) (2022-09-12T17:17:49Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Learnable Multi-level Frequency Decomposition and Hierarchical Attention
Mechanism for Generalized Face Presentation Attack Detection [7.324459578044212]
顔提示攻撃検知(PAD)は多くの注目を集めており、顔認識システムを保護する上で重要な役割を果たしている。
両ストリーム畳み込みニューラルネットワーク(CNN)フレームワークを提案する。
ステップワイドアブレーション研究において提案したPAD法の設計を実証した。
論文 参考訳(メタデータ) (2021-09-16T13:06:43Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Anomaly Detection with Prototype-Guided Discriminative Latent Embeddings [29.93983580779689]
本論文では,通常のデータの識別的プロトタイプを用いて映像フレームを再構築する異常検出手法を提案する。
このようにして、モデルは通常のイベントの再構築を支持し、異常なイベントの再構築を歪めます。
本手法の有効性を3つのベンチマークデータセットで評価し,提案手法が最先端を上回っていることを示す。
論文 参考訳(メタデータ) (2021-04-30T12:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。