論文の概要: Transformer-Driven Multimodal Fusion for Explainable Suspiciousness Estimation in Visual Surveillance
- arxiv url: http://arxiv.org/abs/2512.09311v1
- Date: Wed, 10 Dec 2025 04:39:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.393173
- Title: Transformer-Driven Multimodal Fusion for Explainable Suspiciousness Estimation in Visual Surveillance
- Title(参考訳): 変圧器駆動型マルチモーダル核融合による視覚サーベイランスの予測
- Authors: Kuldeep Singh Yadav, Lalan Kumar,
- Abstract要約: この研究は、大規模な注釈付きデータセット、USE50k、およびリアルタイム不確実性分析のためのビジョンベースのフレームワークを紹介する。
USE50kデータセットには、空港、鉄道駅、レストラン、公園、その他の公共エリアなど、多種多様な制御されていない環境から撮影された65,500枚の画像が含まれている。
本稿では,Suspicious Object Detector, Convolutional Neural Networks, Discriminator Networkを統合した軽量モジュールシステムDeepUSEvisionを紹介する。
- 参考スコア(独自算出の注目度): 4.218290465444889
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Suspiciousness estimation is critical for proactive threat detection and ensuring public safety in complex environments. This work introduces a large-scale annotated dataset, USE50k, along with a computationally efficient vision-based framework for real-time suspiciousness analysis. The USE50k dataset contains 65,500 images captured from diverse and uncontrolled environments, such as airports, railway stations, restaurants, parks, and other public areas, covering a broad spectrum of cues including weapons, fire, crowd density, abnormal facial expressions, and unusual body postures. Building on this dataset, we present DeepUSEvision, a lightweight and modular system integrating three key components, i.e., a Suspicious Object Detector based on an enhanced YOLOv12 architecture, dual Deep Convolutional Neural Networks (DCNN-I and DCNN-II) for facial expression and body-language recognition using image and landmark features, and a transformer-based Discriminator Network that adaptively fuses multimodal outputs to yield an interpretable suspiciousness score. Extensive experiments confirm the superior accuracy, robustness, and interpretability of the proposed framework compared to state-of-the-art approaches. Collectively, the USE50k dataset and the DeepUSEvision framework establish a strong and scalable foundation for intelligent surveillance and real-time risk assessment in safety-critical applications.
- Abstract(参考訳): 突発的な脅威の検出と、複雑な環境における公衆の安全確保には、予期せぬ評価が不可欠である。
この研究は、大規模な注釈付きデータセットUSE50kと、リアルタイム不確実性分析のための計算効率の良い視覚ベースのフレームワークを導入している。
USE50kデータセットには、空港、鉄道駅、レストラン、公園、その他の公共エリアなど、多種多様な制御されていない環境から撮影された65,500枚の画像が含まれている。
このデータセット上に構築したDeepUSEvisionは,拡張されたYOLOv12アーキテクチャに基づく注目のオブジェクト検出器,画像とランドマーク特徴を用いた表情認識とボディランゲージ認識のための2つのディープ畳み込みニューラルネットワーク(DCNN-I,DCNN-II),マルチモーダル出力を適応的に融合して解釈可能な不審性スコアを得るトランスフォーマーベースのディミネータネットワークという,3つの重要なコンポーネントを統合した軽量モジュールシステムである。
大規模実験により, 提案手法の精度, 堅牢性, 解釈可能性について, 最先端の手法と比較して検証した。
集合的に、USE50kデータセットとDeepUSEvisionフレームワークは、安全クリティカルなアプリケーションにおけるインテリジェントな監視とリアルタイムリスクアセスメントのための、強力でスケーラブルな基盤を確立する。
関連論文リスト
- A Tri-Modal Dataset and a Baseline System for Tracking Unmanned Aerial Vehicles [74.8162337823142]
MM-UAVはMulti-Modal UAV Trackingの最初の大規模ベンチマークである。
データセットは30以上の挑戦的なシナリオにまたがっており、1,321の同期マルチモーダルシーケンスと280万以上の注釈付きフレームがある。
データセットを伴って、我々は新しいマルチモーダルマルチUAV追跡フレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-23T08:42:17Z) - Person Recognition at Altitude and Range: Fusion of Face, Body Shape and Gait [70.00430652562012]
FarSightは、顔認識のためのエンドツーエンドシステムで、顔、歩行、体形を横断する生体計測の手がかりを統合する。
FarSightは、4つのコアモジュールにまたがる新しいアルゴリズムを組み込んでいる。
論文 参考訳(メタデータ) (2025-05-07T17:58:25Z) - Towards a Multi-Agent Vision-Language System for Zero-Shot Novel Hazardous Object Detection for Autonomous Driving Safety [0.0]
視覚言語推論とゼロショットオブジェクト検出を統合したマルチモーダル手法を提案する。
予測ハザードとバウンディングボックスアノテーションを一致させるために,OpenAIのCLIPモデルを取り入れたオブジェクト検出を改良する。
その結果,現在の視覚言語に基づくアプローチの長所と短所が明らかになった。
論文 参考訳(メタデータ) (2025-04-18T01:25:02Z) - Multi-modal Multi-platform Person Re-Identification: Benchmark and Method [58.59888754340054]
MP-ReIDは、マルチモダリティとマルチプラットフォームReIDに特化した新しいデータセットである。
このベンチマークは、RGB、赤外線、サーマルイメージングなど、さまざまなモードで1,930のIDからデータをコンパイルする。
クロスモダリティとクロスプラットフォームシナリオに適した,特定設計のプロンプトを備えたフレームワークであるUni-Prompt ReIDを紹介する。
論文 参考訳(メタデータ) (2025-03-21T12:27:49Z) - Unveiling Zero-Space Detection: A Novel Framework for Autonomous Ransomware Identification in High-Velocity Environments [0.0]
提案したZero-Space Detectionフレームワークは、教師なしクラスタリングと高度なディープラーニング技術により、潜時行動パターンを識別する。
高速度環境では多相フィルタリングとアンサンブル学習を統合して効率的な意思決定を行う。
実験的評価では、LockBit、Conti、Revil、BlackMatterなど、さまざまなランサムウェアファミリー間で高い検出率を示している。
論文 参考訳(メタデータ) (2025-01-22T11:41:44Z) - FuzzRisk: Online Collision Risk Estimation for Autonomous Vehicles based on Depth-Aware Object Detection via Fuzzy Inference [6.856508678236828]
このフレームワークは異なるアルゴリズムから2組の予測を受け取り、不整合とファジィ推論による衝突リスクを関連付ける。
IoU(Intersection-over-Union)と深度差測定(deep discrepancy measure)に基づいて,2組の予測の不一致が3次元物体検出器の誤差と強く相関していることを実験的に検証した。
AV衝突率によく一致する既存のオフラインメトリックに対してファジィ推論システムを最適化する。
論文 参考訳(メタデータ) (2024-11-09T20:20:36Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - Understanding Object Detection Through An Adversarial Lens [14.976840260248913]
本稿では, 対向レンズ下での深部物体検出装置の脆弱性を分析し評価するための枠組みを提案する。
提案手法は, リアルタイムオブジェクト検出システムにおいて, 対向行動やリスクを解析するための方法論的ベンチマークとして機能することが実証された。
我々は、このフレームワークが、現実世界のアプリケーションにデプロイされるディープオブジェクト検出器のセキュリティリスクと敵の堅牢性を評価するツールとしても役立つと推測する。
論文 参考訳(メタデータ) (2020-07-11T18:41:47Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。