論文の概要: Vision Language Model for Interpretable and Fine-grained Detection of Safety Compliance in Diverse Workplaces
- arxiv url: http://arxiv.org/abs/2408.07146v1
- Date: Tue, 13 Aug 2024 18:32:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 14:55:43.275445
- Title: Vision Language Model for Interpretable and Fine-grained Detection of Safety Compliance in Diverse Workplaces
- Title(参考訳): 多様な職場における安全コンプライアンスの解釈ときめ細かな検出のための視覚言語モデル
- Authors: Zhiling Chen, Hanning Chen, Mohsen Imani, Ruimin Chen, Farhad Imani,
- Abstract要約: 多様な職場安全コンプライアンスのための解釈可能な検出フレームワークであるClip2Safetyを紹介する。
このフレームワークは、シーン認識、視覚的プロンプト、安全アイテムの検出、きめ細かい検証の4つの主要なモジュールで構成されている。
その結果, Clip2Safetyは, 最先端の質問応答に基づくVLMよりも精度が向上するだけでなく, 推測時間も200倍高速であることがわかった。
- 参考スコア(独自算出の注目度): 5.993182776695029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Workplace accidents due to personal protective equipment (PPE) non-compliance raise serious safety concerns and lead to legal liabilities, financial penalties, and reputational damage. While object detection models have shown the capability to address this issue by identifying safety items, most existing models, such as YOLO, Faster R-CNN, and SSD, are limited in verifying the fine-grained attributes of PPE across diverse workplace scenarios. Vision language models (VLMs) are gaining traction for detection tasks by leveraging the synergy between visual and textual information, offering a promising solution to traditional object detection limitations in PPE recognition. Nonetheless, VLMs face challenges in consistently verifying PPE attributes due to the complexity and variability of workplace environments, requiring them to interpret context-specific language and visual cues simultaneously. We introduce Clip2Safety, an interpretable detection framework for diverse workplace safety compliance, which comprises four main modules: scene recognition, the visual prompt, safety items detection, and fine-grained verification. The scene recognition identifies the current scenario to determine the necessary safety gear. The visual prompt formulates the specific visual prompts needed for the detection process. The safety items detection identifies whether the required safety gear is being worn according to the specified scenario. Lastly, the fine-grained verification assesses whether the worn safety equipment meets the fine-grained attribute requirements. We conduct real-world case studies across six different scenarios. The results show that Clip2Safety not only demonstrates an accuracy improvement over state-of-the-art question-answering based VLMs but also achieves inference times two hundred times faster.
- Abstract(参考訳): 個人用防護装置(PPE)非準拠による職場事故は、重大な安全上の懸念を生じさせ、法的責任、金銭的罰則、評判の被害をもたらす。
オブジェクト検出モデルは、安全項目を特定してこの問題に対処する能力を示しているが、YOLO、Faster R-CNN、SSDといった既存のモデルのほとんどは、様々な職場シナリオでPPEの詳細な属性を検証することに制限されている。
視覚言語モデル(VLM)は、視覚情報とテキスト情報の相乗効果を活用し、PPE認識における従来の物体検出限界に対する有望な解決策を提供することにより、検出タスクの牽引力を高めている。
それでもVLMは、職場環境の複雑さと多様性のために、PPEの属性を一貫して検証する上で、コンテキスト固有の言語と視覚的手がかりを同時に解釈する必要がある、という課題に直面している。
Clip2Safetyは、シーン認識、視覚的プロンプト、安全項目の検出、きめ細かい検証の4つの主要モジュールからなる、多様な職場安全コンプライアンスのための解釈可能な検出フレームワークである。
シーン認識は、必要な安全装置を決定するための現在のシナリオを特定する。
視覚的プロンプトは、検出プロセスに必要な特定の視覚的プロンプトを定式化する。
安全項目検出は、所定のシナリオに応じて、所要の安全装備が装着されているか否かを判定する。
最後に、被着用安全装置が微粒化属性要件を満たしているかどうかを微粒化評価する。
6つの異なるシナリオで実世界のケーススタディを行います。
その結果, Clip2Safetyは, 最先端の質問応答に基づくVLMよりも精度が向上するだけでなく, 推測時間も200倍高速であることがわかった。
関連論文リスト
- On the Black-box Explainability of Object Detection Models for Safe and Trustworthy Industrial Applications [7.848637922112521]
本稿では,物体検出モデルに対するモデルに依存しないXAI手法に着目し,分割マスク生成を用いた形態的フラクタル摂動ピラミッド(P)の拡張であるD-Pを提案する。
これらの手法を実世界の産業用・ロボット用データセット上で評価し,マスク数,モデルサイズ,画像解像度などのパラメータが説明の質に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2024-10-28T13:28:05Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - The Need for Guardrails with Large Language Models in Medical Safety-Critical Settings: An Artificial Intelligence Application in the Pharmacovigilance Ecosystem [0.6965384453064829]
大規模言語モデル(LLM)は、特定の種類の知識処理を効果的にスケールする能力を備えた有用なツールである。
しかし、高リスクで安全に重要な領域への展開は、特に幻覚の問題など、ユニークな課題を生んでいる。
これは特に、不正確さが患者を傷つける可能性がある薬物の安全性のような設定に関係している。
我々は、特定の種類の幻覚と薬物安全性のエラーを軽減するために特別に設計されたガードレールのコンセプトスイートを開発し、実証した。
論文 参考訳(メタデータ) (2024-07-01T19:52:41Z) - SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection
with Multimodal Large Language Models [63.946809247201905]
フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。
我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。
その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z) - Integrating Language-Derived Appearance Elements with Visual Cues in Pedestrian Detection [51.66174565170112]
本研究では,大言語モデルの強みを文脈的外見の変化の理解に活用するための新しいアプローチを提案する。
本稿では,言語由来の外観要素を定式化し,歩行者検出に視覚的手がかりを取り入れることを提案する。
論文 参考訳(メタデータ) (2023-11-02T06:38:19Z) - Exploiting Multi-Object Relationships for Detecting Adversarial Attacks
in Complex Scenes [51.65308857232767]
ディープニューラルネットワーク(DNN)をデプロイするビジョンシステムは、敵の例に弱いことが知られている。
近年の研究では、入力データの固有成分のチェックは、敵攻撃を検出するための有望な方法であることが示された。
言語モデルを用いてコンテキスト整合性チェックを行う新しい手法を開発した。
論文 参考訳(メタデータ) (2021-08-19T00:52:10Z) - I-ViSE: Interactive Video Surveillance as an Edge Service using
Unsupervised Feature Queries [70.69741666849046]
本稿では、教師なし機能クエリに基づくエッジサービス(I-ViSE)としてインタラクティブビデオ監視を提案する。
I-ViSEのプロトタイプはエッジフォッグコンピューティングのパラダイムに従って構築され、実験により、I-ViSE方式がシーン認識の設計目標を2秒以内で満たすことを確認した。
論文 参考訳(メタデータ) (2020-03-09T14:26:45Z) - DEEVA: A Deep Learning and IoT Based Computer Vision System to Address
Safety and Security of Production Sites in Energy Industry [0.0]
本稿では,シーン分類,シーン中のオブジェクト検出,セマンティックセグメンテーション,シーンキャプションなど,さまざまなコンピュータビジョンに関わる問題に取り組む。
我々は、シーン分類、オブジェクト検出、セマンティックセグメンテーション、シーンのキャプションを扱うためのDeep ExxonMobil Eye for Video Analysis (DEEVA)パッケージを開発した。
その結果, RetinaNet物体検出器を用いた伝達学習により, 作業者の存在, 車両・建設機器の種類, 安全関連物体を高い精度(90%以上)で検出できることがわかった。
論文 参考訳(メタデータ) (2020-03-02T21:26:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。