論文の概要: Multimodal Real-Time Anomaly Detection and Industrial Applications
- arxiv url: http://arxiv.org/abs/2511.18698v1
- Date: Mon, 24 Nov 2025 02:43:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.980153
- Title: Multimodal Real-Time Anomaly Detection and Industrial Applications
- Title(参考訳): マルチモーダルリアルタイム異常検出とその応用
- Authors: Aman Verma, Keshav Samdani, Mohd. Samiuddin Shafi,
- Abstract要約: 本稿では,総合的なマルチモーダル室監視システムの設計,実装,進化について述べる。
YOLOv8,ByteTrack,Audio Spectrogram Transformer (AST) を用いた初期軽量実装について述べる。
高度なシステムは、包括的な音声理解のための3つのオーディオモデル(AST、Wav2Vec2、HuBERT)と、精度を向上させるための2つのオブジェクト検出器(YOLO、DETR)と、クロスモーダル学習を強化するための高度な融合機構を組み合わせたものである。
- 参考スコア(独自算出の注目度): 1.0323063834827415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the design, implementation, and evolution of a comprehensive multimodal room-monitoring system that integrates synchronized video and audio processing for real-time activity recognition and anomaly detection. We describe two iterations of the system: an initial lightweight implementation using YOLOv8, ByteTrack, and the Audio Spectrogram Transformer (AST), and an advanced version that incorporates multi-model audio ensembles, hybrid object detection, bidirectional cross-modal attention, and multi-method anomaly detection. The evolution demonstrates significant improvements in accuracy, robustness, and industrial applicability. The advanced system combines three audio models (AST, Wav2Vec2, and HuBERT) for comprehensive audio understanding, dual object detectors (YOLO and DETR) for improved accuracy, and sophisticated fusion mechanisms for enhanced cross-modal learning. Experimental evaluation shows the system's effectiveness in general monitoring scenarios as well as specialized industrial safety applications, achieving real-time performance on standard hardware while maintaining high accuracy.
- Abstract(参考訳): 本稿では,リアルタイムな活動認識と異常検出のための同期ビデオ処理とオーディオ処理を統合した,総合的なマルチモーダル室監視システムの設計,実装,進化について述べる。
YOLOv8,ByteTrack,Audio Spectrogram Transformer (AST) を用いた初期軽量実装と,マルチモデルオーディオアンサンブル,ハイブリッドオブジェクト検出,双方向クロスモーダルアテンション,マルチメタル異常検出を組み込んだ高度なバージョンについて述べる。
この進化は、正確性、堅牢性、産業応用性において著しく改善されている。
高度なシステムは、包括的な音声理解のための3つのオーディオモデル(AST、Wav2Vec2、HuBERT)と、精度を向上させるための2つのオブジェクト検出器(YOLO、DETR)と、クロスモーダル学習を強化するための高度な融合機構を組み合わせたものである。
実験により,標準的なハードウェア上でのリアルタイム性能を実現するとともに,高い精度を維持しながら,一般的な監視シナリオおよび工業用安全アプリケーションにおけるシステムの有効性が示された。
関連論文リスト
- A Tri-Modal Dataset and a Baseline System for Tracking Unmanned Aerial Vehicles [74.8162337823142]
MM-UAVはMulti-Modal UAV Trackingの最初の大規模ベンチマークである。
データセットは30以上の挑戦的なシナリオにまたがっており、1,321の同期マルチモーダルシーケンスと280万以上の注釈付きフレームがある。
データセットを伴って、我々は新しいマルチモーダルマルチUAV追跡フレームワークを提供する。
論文 参考訳(メタデータ) (2025-11-23T08:42:17Z) - AVAR-Net: A Lightweight Audio-Visual Anomaly Recognition Framework with a Benchmark Dataset [11.179608136803447]
異常認識は、監視、交通、医療、公衆安全において重要な役割を担っている。
既存のアプローチは視覚データのみに依存しており、困難な状況下では信頼できない。
大規模な同期音声-視覚の欠如は、マルチモーダルな異常認識の進展を妨げている。
論文 参考訳(メタデータ) (2025-10-15T14:56:00Z) - Learning-based Stage Verification System in Manual Assembly Scenarios [2.517043342442487]
本研究では,最小限の視覚センサの使用制限下での正確なモニタリングを実現するための新しい手法を提案する。
同一のタイムスタンプからの状態情報を統合することで, 組立プロセスの現段階を92%を超える平均精度で検出し, 確認する。
論文 参考訳(メタデータ) (2025-07-23T08:10:27Z) - SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model [52.47816604709358]
ビデオ異常検出(VAD)は、ビデオ内の予期せぬ事象を識別することを目的としており、安全クリティカルドメインに広く応用されている。
視覚言語モデル(VLM)は強力なマルチモーダル推論能力を示し、異常検出の新しい機会を提供している。
SlowFastVADは高速異常検出器と低速異常検出器を統合したハイブリッドフレームワークである。
論文 参考訳(メタデータ) (2025-04-14T15:30:03Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Injecting Explainability and Lightweight Design into Weakly Supervised Video Anomaly Detection Systems [4.32380943607886]
本稿では,知識蒸留とクロスモーダルコントラスト学習を活用したTCVADS(Two-stage Cross-modal Video Anomaly Detection System)を提案する。
実験結果から,TCVADSはモデル性能,検出効率,解釈可能性において既存手法よりも優れていた。
論文 参考訳(メタデータ) (2024-12-28T16:24:35Z) - Optimizing Multispectral Object Detection: A Bag of Tricks and Comprehensive Benchmarks [49.84182981950623]
RGBおよびTIR(熱赤外)変調を利用したマルチスペクトル物体検出は,課題として広く認識されている。
モダリティと堅牢な融合戦略の両方から特徴を効果的に抽出するだけでなく、スペクトルの相違といった問題に対処する能力も必要である。
本稿では,高パフォーマンス単一モードモデルのシームレスな最適化が可能な,効率的かつ容易にデプロイ可能なマルチスペクトルオブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-27T12:18:39Z) - Multimodal Attention-Enhanced Feature Fusion-based Weekly Supervised Anomaly Violence Detection [1.9223495770071632]
このシステムは、RGBビデオ、光フロー、オーディオ信号の3つの特徴ストリームを使用し、それぞれのストリームが相補的な空間的特徴と時間的特徴を抽出する。
このシステムは3つのデータセットの異常検出精度とロバスト性を大幅に改善する。
論文 参考訳(メタデータ) (2024-09-17T14:17:52Z) - Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles [48.208214762257136]
オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、サーバ側の検証モデルである。
プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
論文 参考訳(メタデータ) (2023-10-17T16:22:18Z) - Multi-Modal Perception Attention Network with Self-Supervised Learning
for Audio-Visual Speaker Tracking [18.225204270240734]
音声と視覚の両方を用いた話者追跡のための新しいマルチモーダル・パーセプション・トラッカー(MPT)を提案する。
MPTは標準データセットと排他データセットでそれぞれ98.6%と78.3%のトラッキング精度を達成した。
論文 参考訳(メタデータ) (2021-12-14T14:14:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。