論文の概要: MonitorVLM:A Vision Language Framework for Safety Violation Detection in Mining Operations
- arxiv url: http://arxiv.org/abs/2510.03666v1
- Date: Sat, 04 Oct 2025 04:46:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.18309
- Title: MonitorVLM:A Vision Language Framework for Safety Violation Detection in Mining Operations
- Title(参考訳): MonitorVLM:マイニング作業における安全振動検出のためのビジョン言語フレームワーク
- Authors: Jiang Wu, Sichao Wu, Yinsong Ma, Guangyuan Yu, Haoyuan Xu, Lifang Zheng, Jingliang Duan,
- Abstract要約: 従来の手動検査は、労働集約的で、エラーを起こし、大規模で動的な環境には不十分である。
監視ビデオストリームから直接安全違反を検出するために設計された新しい視覚言語フレームワークである MonitorVLM を提案する。
- 参考スコア(独自算出の注目度): 13.313873108995187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Industrial accidents, particularly in high-risk domains such as surface and underground mining, are frequently caused by unsafe worker behaviors. Traditional manual inspection remains labor-intensive, error-prone, and insufficient for large-scale, dynamic environments, highlighting the urgent need for intelligent and automated safety monitoring. In this paper, we present MonitorVLM, a novel vision--language framework designed to detect safety violations directly from surveillance video streams. MonitorVLM introduces three key innovations: (1) a domain-specific violation dataset comprising 9,000 vision--question--answer (VQA) samples across 40 high-frequency mining regulations, enriched with augmentation and auxiliary detection cues; (2) a clause filter (CF) module that dynamically selects the Top-$K$ most relevant clauses, reducing inference latency by 13.56\% while maintaining accuracy; and (3) a behavior magnifier (BM) module that enhances worker regions to improve fine-grained action recognition, yielding additional gains of 3.45% in precision and 8.62% in recall. Experimental results demonstrate that MonitorVLM significantly outperforms baseline vision--language models, achieving improvements of 22.01% in precision, 34.22\% in recall, and 28.37% in F1 score over the 72B unfine-tuned baseline. A lightweight web-based interface further integrates MonitorVLM into practical workflows, enabling automatic violation reporting with video timestamping. This study highlights the potential of multimodal large models to enhance occupational safety monitoring in mining and beyond.
- Abstract(参考訳): 産業事故、特に地表や地下の鉱業のようなリスクの高い領域では、安全でない労働者の行動によってしばしば引き起こされる。
従来の手動検査は、労働集約的で、エラーを起こし、大規模で動的な環境には不十分であり、インテリジェントで自動化された安全監視の緊急の必要性を強調している。
本稿では,監視ビデオストリームから直接安全違反を検出するための新しいビジョン言語フレームワークである MonitorVLM を提案する。
MonitorVLMは、1つの重要なイノベーションを紹介している:(1)高頻度鉱業規制40件にまたがる9000のビジョン-クエクション-アンサー(VQA)サンプルを含むドメイン固有の違反データセット、(2)Top-K$で最も関係のある節を動的に選択する節フィルタ(CF)モジュール、そして、精度を維持しながら推論遅延を13.56\%削減し、(3)細粒度のアクション認識を改善するために作業領域を強化し、さらに3.45%の精度と8.62%のリコールをもたらす行動拡大器(BM)モジュール。
実験の結果、MonitorVLMはベースラインのビジョン言語モデルよりも大幅に優れており、精度が22.01%、リコールが34.22\%、F1スコアが72Bの未調整ベースラインよりも28.37%向上した。
軽量なWebベースのインターフェースは、さらに MonitorVLM を実用的なワークフローに統合し、ビデオタイムスタンプによる自動違反報告を可能にする。
本研究は, 鉱業等における作業安全モニタリングを強化するため, マルチモーダル大規模モデルの可能性を明らかにするものである。
関連論文リスト
- Investigating Traffic Accident Detection Using Multimodal Large Language Models [3.4123736336071864]
本研究では,交通事故の検出と記述を行うマルチモーダル大規模言語モデル(MLLM)のゼロショット機能について検討する。
その結果、PixtralはF1スコア71%、リコール83%のトップパフォーマーとなった。
これらの結果は、MLLMと高度な視覚分析技術の統合の可能性を示している。
論文 参考訳(メタデータ) (2025-09-23T14:47:33Z) - Invisible Injections: Exploiting Vision-Language Models Through Steganographic Prompt Embedding [0.0]
ビジョン言語モデル(VLM)は、マルチモーダルAIアプリケーションに革命をもたらしたが、ほとんど探索されていない新しいセキュリティ脆弱性を導入した。
VLMに対するステガノグラフィー・プロンプト・インジェクション・アタックの最初の包括的研究について述べる。
提案手法は,現在のVLMアーキテクチャが通常の画像処理中に不注意に隠されたプロンプトを抽出し,実行可能であることを示す。
論文 参考訳(メタデータ) (2025-07-30T00:34:20Z) - Attack Effect Model based Malicious Behavior Detection [14.402324888945815]
従来のセキュリティ検出手法における3つの重要な課題に対処するフレームワークであるFEAD(Focus-Enhanced Detection)を提案する。
本稿では,オンラインアタックレポートからセキュリティクリティカルな監視項目を抽出し,包括的カバレッジを実現するための攻撃モデル駆動アプローチを提案する。
また、FEADは5.4%のオーバーヘッドしか持たない既存のソリューションよりも8.23%高いF1スコアを達成することを示す。
論文 参考訳(メタデータ) (2025-06-05T13:10:58Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - SlowFastVAD: Video Anomaly Detection via Integrating Simple Detector and RAG-Enhanced Vision-Language Model [52.47816604709358]
ビデオ異常検出(VAD)は、ビデオ内の予期せぬ事象を識別することを目的としており、安全クリティカルドメインに広く応用されている。
視覚言語モデル(VLM)は強力なマルチモーダル推論能力を示し、異常検出の新しい機会を提供している。
SlowFastVADは高速異常検出器と低速異常検出器を統合したハイブリッドフレームワークである。
論文 参考訳(メタデータ) (2025-04-14T15:30:03Z) - Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection [56.66677293607114]
オープンセットのリアクティブかつアクティブな障害検出のためのCode-as-Monitor(CaM)を提案する。
モニタリングの精度と効率を高めるために,制約関連エンティティを抽象化する制約要素を導入する。
実験により、CaMは28.7%高い成功率を達成し、厳しい乱れの下で実行時間を31.8%短縮することが示された。
論文 参考訳(メタデータ) (2024-12-05T18:58:27Z) - Exploring Visual Vulnerabilities via Multi-Loss Adversarial Search for Jailbreaking Vision-Language Models [92.79804303337522]
VLM(Vision-Language Models)は、安全アライメントの問題に対して脆弱である。
本稿では、シナリオ認識画像生成を利用したセマンティックアライメントのための新しいジェイルブレイクフレームワークであるMLAIを紹介する。
大規模な実験はMLAIの重大な影響を示し、MiniGPT-4で77.75%、LLaVA-2で82.80%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2024-11-27T02:40:29Z) - Towards Robust Visual Tracking for Unmanned Aerial Vehicle with
Tri-Attentional Correlation Filters [19.831557268085234]
マルチレベルの視覚的注意を生かした新しいオブジェクト追跡フレームワークを提案する。
提案トラッカーは,UAVタスクにおける高い運用効率を維持しつつ,困難な要因に対する堅牢な相関力を備えている。
論文 参考訳(メタデータ) (2020-08-02T17:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。