Fugu-MT 論文翻訳(概要): Vision Language Model for Interpretable and Fine-grained Detection of Safety Compliance in Diverse Workplaces

論文の概要: Vision Language Model for Interpretable and Fine-grained Detection of Safety Compliance in Diverse Workplaces

arxiv url: http://arxiv.org/abs/2408.07146v1
Date: Tue, 13 Aug 2024 18:32:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-15 14:55:43.275445
Title: Vision Language Model for Interpretable and Fine-grained Detection of Safety Compliance in Diverse Workplaces
Title（参考訳）: 多様な職場における安全コンプライアンスの解釈ときめ細かな検出のための視覚言語モデル
Authors: Zhiling Chen, Hanning Chen, Mohsen Imani, Ruimin Chen, Farhad Imani,
Abstract要約: 多様な職場安全コンプライアンスのための解釈可能な検出フレームワークであるClip2Safetyを紹介する。このフレームワークは、シーン認識、視覚的プロンプト、安全アイテムの検出、きめ細かい検証の4つの主要なモジュールで構成されている。その結果, Clip2Safetyは, 最先端の質問応答に基づくVLMよりも精度が向上するだけでなく, 推測時間も200倍高速であることがわかった。
参考スコア（独自算出の注目度）: 5.993182776695029
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Workplace accidents due to personal protective equipment (PPE) non-compliance raise serious safety concerns and lead to legal liabilities, financial penalties, and reputational damage. While object detection models have shown the capability to address this issue by identifying safety items, most existing models, such as YOLO, Faster R-CNN, and SSD, are limited in verifying the fine-grained attributes of PPE across diverse workplace scenarios. Vision language models (VLMs) are gaining traction for detection tasks by leveraging the synergy between visual and textual information, offering a promising solution to traditional object detection limitations in PPE recognition. Nonetheless, VLMs face challenges in consistently verifying PPE attributes due to the complexity and variability of workplace environments, requiring them to interpret context-specific language and visual cues simultaneously. We introduce Clip2Safety, an interpretable detection framework for diverse workplace safety compliance, which comprises four main modules: scene recognition, the visual prompt, safety items detection, and fine-grained verification. The scene recognition identifies the current scenario to determine the necessary safety gear. The visual prompt formulates the specific visual prompts needed for the detection process. The safety items detection identifies whether the required safety gear is being worn according to the specified scenario. Lastly, the fine-grained verification assesses whether the worn safety equipment meets the fine-grained attribute requirements. We conduct real-world case studies across six different scenarios. The results show that Clip2Safety not only demonstrates an accuracy improvement over state-of-the-art question-answering based VLMs but also achieves inference times two hundred times faster.
Abstract（参考訳）: 個人用防護装置(PPE)非準拠による職場事故は、重大な安全上の懸念を生じさせ、法的責任、金銭的罰則、評判の被害をもたらす。オブジェクト検出モデルは、安全項目を特定してこの問題に対処する能力を示しているが、YOLO、Faster R-CNN、SSDといった既存のモデルのほとんどは、様々な職場シナリオでPPEの詳細な属性を検証することに制限されている。視覚言語モデル(VLM)は、視覚情報とテキスト情報の相乗効果を活用し、PPE認識における従来の物体検出限界に対する有望な解決策を提供することにより、検出タスクの牽引力を高めている。それでもVLMは、職場環境の複雑さと多様性のために、PPEの属性を一貫して検証する上で、コンテキスト固有の言語と視覚的手がかりを同時に解釈する必要がある、という課題に直面している。 Clip2Safetyは、シーン認識、視覚的プロンプト、安全項目の検出、きめ細かい検証の4つの主要モジュールからなる、多様な職場安全コンプライアンスのための解釈可能な検出フレームワークである。シーン認識は、必要な安全装置を決定するための現在のシナリオを特定する。視覚的プロンプトは、検出プロセスに必要な特定の視覚的プロンプトを定式化する。安全項目検出は、所定のシナリオに応じて、所要の安全装備が装着されているか否かを判定する。最後に、被着用安全装置が微粒化属性要件を満たしているかどうかを微粒化評価する。 6つの異なるシナリオで実世界のケーススタディを行います。その結果, Clip2Safetyは, 最先端の質問応答に基づくVLMよりも精度が向上するだけでなく, 推測時間も200倍高速であることがわかった。

関連論文リスト

SIA: Enhancing Safety via Intent Awareness for Vision-Language Models [5.156850255810611]
視覚言語モデル(VLM)は、現実世界のアプリケーションにますます多くデプロイされている。一見無害な入力が組み合わさると有害な意図が明らかになり、安全でないモデル応答がもたらされる。 SIA(Safety via Intent Awareness)は,マルチモーダル入力における有害な意図を積極的に検出・緩和する,トレーニング不要なプロンプトエンジニアリングフレームワークである。
論文参考訳（メタデータ） (2025-07-21T13:59:50Z)
Visual-Semantic Knowledge Conflicts in Operating Rooms: Synthetic Data Curation for Surgical Risk Perception in Multimodal Large Language Models [7.916129615051081]
拡散モデルにより生成された34,000以上の合成画像からなるデータセットを提案する。データセットには、バリデーションのためのゴールドスタンダード参照として機能する214の人間アノテーション付きイメージが含まれている。
論文参考訳（メタデータ） (2025-06-25T07:06:29Z)
HoliSafe: Holistic Safety Benchmarking and Modeling with Safety Meta Token for Vision-Language Model [52.72318433518926]
既存の安全チューニングデータセットとベンチマークは、画像とテキストの相互作用が有害なコンテンツを生み出す方法を部分的に考慮しているだけである。私たちは、安全で安全でない5つの画像とテキストの組み合わせにまたがる、全体安全データセットとベンチマークであるHoliSafeを紹介します。我々は,学習可能な安全メタトークンと専用の安全ヘッドを備えた新しいVLMであるSafeLLaVAを提案する。
論文参考訳（メタデータ） (2025-06-05T07:26:34Z)
Safe-Construct: Redefining Construction Safety Violation Recognition as 3D Multi-View Engagement Task [2.0811729303868005]
違反認識を3次元多視点エンゲージメントタスクとして再構成するフレームワークであるSafe-Constructを紹介する。 Safe-Constructは、4つの違反タイプにわたる最先端メソッドよりも7.6%改善されている。
論文参考訳（メタデータ） (2025-04-15T05:21:09Z)
Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文参考訳（メタデータ） (2025-04-14T09:03:51Z)
Using Vision Language Models for Safety Hazard Identification in Construction [1.2343292905447238]
本稿では,建設リスクの同定のための視覚言語モデル(VLM)に基づくフレームワークを提案し,実験的に検証した。 GPT-4o, Gemini, Llama 3.2, InternVL2を含む最先端のVLMを1100の建設現場画像のカスタムデータセットを用いて評価した。
論文参考訳（メタデータ） (2025-04-12T05:11:23Z)
Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文参考訳（メタデータ） (2025-01-30T17:59:45Z)
MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文参考訳（メタデータ） (2024-12-31T00:06:04Z)
On the Black-box Explainability of Object Detection Models for Safe and Trustworthy Industrial Applications [7.848637922112521]
本稿では,物体検出モデルに対するモデルに依存しないXAI手法に着目し,分割マスク生成を用いた形態的フラクタル摂動ピラミッド(P)の拡張であるD-Pを提案する。これらの手法を実世界の産業用・ロボット用データセット上で評価し,マスク数,モデルサイズ,画像解像度などのパラメータが説明の質に及ぼす影響について検討した。
論文参考訳（メタデータ） (2024-10-28T13:28:05Z)
Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。 MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文参考訳（メタデータ） (2024-10-08T16:16:07Z)
Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:01:34Z)
The Need for Guardrails with Large Language Models in Medical Safety-Critical Settings: An Artificial Intelligence Application in the Pharmacovigilance Ecosystem [0.6965384453064829]
大規模言語モデル(LLM)は、特定の種類の知識処理を効果的にスケールする能力を備えた有用なツールである。しかし、高リスクで安全に重要な領域への展開は、特に幻覚の問題など、ユニークな課題を生んでいる。これは特に、不正確さが患者を傷つける可能性がある薬物の安全性のような設定に関係している。我々は、特定の種類の幻覚と薬物安全性のエラーを軽減するために特別に設計されたガードレールのコンセプトスイートを開発し、実証した。
論文参考訳（メタデータ） (2024-07-01T19:52:41Z)
SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models [63.946809247201905]
フェーススプーフィングと偽造検出におけるMLLMの能力を評価するための新しいベンチマーク、ShielDを導入する。我々は、これらの2つの顔セキュリティタスクにおいて、マルチモーダル顔データを評価するために、真/偽/複数選択の質問を設計する。その結果,MLLMは顔セキュリティ領域において大きな可能性を秘めていることがわかった。
論文参考訳（メタデータ） (2024-02-06T17:31:36Z)
Integrating Language-Derived Appearance Elements with Visual Cues in Pedestrian Detection [51.66174565170112]
本研究では,大言語モデルの強みを文脈的外見の変化の理解に活用するための新しいアプローチを提案する。本稿では,言語由来の外観要素を定式化し,歩行者検出に視覚的手がかりを取り入れることを提案する。
論文参考訳（メタデータ） (2023-11-02T06:38:19Z)
Exploiting Multi-Object Relationships for Detecting Adversarial Attacks in Complex Scenes [51.65308857232767]
ディープニューラルネットワーク(DNN)をデプロイするビジョンシステムは、敵の例に弱いことが知られている。近年の研究では、入力データの固有成分のチェックは、敵攻撃を検出するための有望な方法であることが示された。言語モデルを用いてコンテキスト整合性チェックを行う新しい手法を開発した。
論文参考訳（メタデータ） (2021-08-19T00:52:10Z)
I-ViSE: Interactive Video Surveillance as an Edge Service using Unsupervised Feature Queries [70.69741666849046]
本稿では、教師なし機能クエリに基づくエッジサービス(I-ViSE)としてインタラクティブビデオ監視を提案する。 I-ViSEのプロトタイプはエッジフォッグコンピューティングのパラダイムに従って構築され、実験により、I-ViSE方式がシーン認識の設計目標を2秒以内で満たすことを確認した。
論文参考訳（メタデータ） (2020-03-09T14:26:45Z)
DEEVA: A Deep Learning and IoT Based Computer Vision System to Address Safety and Security of Production Sites in Energy Industry [0.0]
本稿では,シーン分類,シーン中のオブジェクト検出,セマンティックセグメンテーション,シーンキャプションなど,さまざまなコンピュータビジョンに関わる問題に取り組む。我々は、シーン分類、オブジェクト検出、セマンティックセグメンテーション、シーンのキャプションを扱うためのDeep ExxonMobil Eye for Video Analysis (DEEVA)パッケージを開発した。その結果, RetinaNet物体検出器を用いた伝達学習により, 作業者の存在, 車両・建設機器の種類, 安全関連物体を高い精度(90%以上)で検出できることがわかった。
論文参考訳（メタデータ） (2020-03-02T21:26:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。